VQA (Visual Question Answering)
KI-Aufgabe, bei der ein Modell Fragen in natürlicher Sprache zu einem Bild beantwortet, etwa "Wie viele Personen sind auf dem Foto?".
Visual Question Answering (VQA) bezeichnet eine Aufgabenstellung an der Schnittstelle von Computer Vision und natürlicher Sprache: Ein KI-System bekommt ein Bild und eine Frage in natürlicher Sprache und soll eine korrekte Antwort liefern. Typische Fragen reichen von "Was sieht man auf dem Bild?" über "Wie viele rote Autos sind zu sehen?" bis hin zu komplexen Schlussfolgerungen.
Frühere VQA-Modelle kombinierten getrennte Bild- und Textencoder mit einem Fusionsmechanismus. Moderne multimodale Sprachmodelle wie GPT-4o, Claude oder Gemini lösen VQA quasi nebenbei: Sie verarbeiten Bild und Frage gemeinsam in einem einzigen Transformer und können beliebige Fragen flexibel beantworten, auch zu unsichtbaren Konzepten wie Stimmungen oder Kontextzusammenhängen.
VQA-Fähigkeiten sind Grundlage zahlreicher praktischer Anwendungen: barrierefreier Bildzugang für blinde Menschen, intelligente Produktsuche im E-Commerce, medizinische Bildauswertung mit Rückfragemöglichkeit, Dokumentenverständnis (z. B. das Auslesen von Rechnungen oder Formularen), pädagogische Assistenten oder die Steuerung von Robotern durch sprachlich beschriebene Szenenfragen.
Verwandte Begriffe
BERT
Wegweisendes Sprachmodell von Google (2018), das die Verarbeitung natürlicher Sprache durch…
BPE (Byte-Pair Encoding)
Verfahren zur Zerlegung von Text in kleine, häufige Bausteine (Subword-Tokens). Grundlage der…
Chain-of-Thought (CoT)
Technik, bei der KI-Modelle Probleme schrittweise durchdenken, bevor sie antworten – die Grundlage…
Chatbot
Ein Computerprogramm, das entwickelt wurde, um menschenähnliche Konversationen mit Benutzern über…
ChatGPT
ChatGPT ist ein KI-Sprachmodell, das von OpenAI entwickelt wurde. Es ist Teil der Generative…