Multimodalität
Multimodalität in der KI bezieht sich auf Systeme, die verschiedene Arten von Daten gleichzeitig verarbeiten können, wie Text, Bilder, Audio und Video. Diese Systeme können Informationen aus verschied...
Multimodalität beschreibt die Faehigkeit eines KI-Systems, mehrere Arten von Daten gleichzeitig zu verarbeiten und miteinander zu verknuepfen. Damit sind unterschiedliche Eingabe- und Ausgabeformen gemeint, etwa Text, Bilder, gesprochene Sprache, Audio, Video oder auch Tabellen und Sensordaten. Ein multimodales System kann zum Beispiel ein Foto betrachten und dazu eine schriftliche Frage beantworten oder aus einer Sprachaufnahme einen formatierten Textbericht erstellen.
Technisch werden die verschiedenen Datentypen in eine gemeinsame Repraesentation uebersetzt, sodass das Modell Zusammenhaenge zwischen ihnen erkennen kann. Ein Bild wird also nicht nur als Pixelmenge gesehen, sondern in einen Bedeutungsraum eingeordnet, den das Modell auch fuer Texte oder Toene nutzt. Auf diese Weise lassen sich Aufgaben loesen, die frueher mehrere spezialisierte Systeme erforderten: Bildbeschreibung, automatische Untertitelung, Auswertung gescannter Dokumente, Erkennung von Objekten in Kombination mit Textanweisungen oder die Erstellung von Bildern aus Textbeschreibungen. Bekannte Beispiele sind moderne Sprachmodelle wie GPT-4o, Gemini oder Claude, die Texte, Bilder und teils auch Audio in einem Vorgang verarbeiten.
Fuer kleine und mittlere Unternehmen ist Multimodalitaet vor allem deshalb interessant, weil viele Arbeitsablaeufe ohnehin aus gemischten Informationen bestehen. Eine Handwerksfirma kann Fotos einer Baustelle hochladen und automatisch eine Materialliste oder einen Angebotsentwurf erstellen lassen. Ein Steuerbuero kann eingescannte Belege auslesen und direkt in die Buchhaltung uebernehmen. Im Kundenservice lassen sich Sprachnachrichten transkribieren, Stimmungen einordnen und passende Antwortvorschlaege generieren. Auch im Marketing entstehen Vorteile, wenn aus einem kurzen Briefing-Text Bildmotive, Produktbeschreibungen und Social-Media-Posts in einem Durchgang entstehen.
Die Chance liegt darin, Medienbrueche zu reduzieren und mit einem einzigen Werkzeug viele kleine Aufgaben abzudecken. Grenzen bestehen weiterhin bei der Genauigkeit, beim Datenschutz sensibler Inhalte und bei den Kosten leistungsfaehiger Modelle. Verwandte Begriffe sind Vision-Language-Modelle, Foundation Models und Cross-Modal Retrieval.
Verwandte Begriffe
A2A (Agent-to-Agent)
A2A (Agent-to-Agent) ist ein von Google vorgeschlagener offener Standard zur Ermöglichung der…
Adversarial Learning
Beim gegnerischen Lernen wird versucht, ein Modell durch Lernen mit sogenannten gegnerischen…
Agentic AI (Agentische KI)
Autonome KI-Systeme, die eigenständig Ziele verfolgen, Entscheidungen treffen und komplexe Aufgaben…
AGI
Künstliche allgemeine Intelligenz (AGI) bezieht sich auf eine Form der künstlichen Intelligenz, die…
AI (Artificial Intelligence)
Englischsprachige Abkürzung für Künstliche Intelligenz. Ein Bereich der Informatik, der sich mit…