VQA (Visual Question Answering)

Computer Vision NLP & Sprache Multimodal

KI-Aufgabe, bei der ein Modell Fragen in natürlicher Sprache zu einem Bild beantwortet, etwa "Wie viele Personen sind auf dem Foto?".

Visual Question Answering (VQA) bezeichnet eine Aufgabenstellung an der Schnittstelle von Computer Vision und natürlicher Sprache: Ein KI-System bekommt ein Bild und eine Frage in natürlicher Sprache und soll eine korrekte Antwort liefern. Typische Fragen reichen von "Was sieht man auf dem Bild?" über "Wie viele rote Autos sind zu sehen?" bis hin zu komplexen Schlussfolgerungen.

Frühere VQA-Modelle kombinierten getrennte Bild- und Textencoder mit einem Fusionsmechanismus. Moderne multimodale Sprachmodelle wie GPT-4o, Claude oder Gemini lösen VQA quasi nebenbei: Sie verarbeiten Bild und Frage gemeinsam in einem einzigen Transformer und können beliebige Fragen flexibel beantworten, auch zu unsichtbaren Konzepten wie Stimmungen oder Kontextzusammenhängen.

VQA-Fähigkeiten sind Grundlage zahlreicher praktischer Anwendungen: barrierefreier Bildzugang für blinde Menschen, intelligente Produktsuche im E-Commerce, medizinische Bildauswertung mit Rückfragemöglichkeit, Dokumentenverständnis (z. B. das Auslesen von Rechnungen oder Formularen), pädagogische Assistenten oder die Steuerung von Robotern durch sprachlich beschriebene Szenenfragen.

VQA (Visual Question Answering)

Verwandte Begriffe

BERT

BPE (Byte-Pair Encoding)

Chain-of-Thought (CoT)

Chatbot

ChatGPT