Gemini

Sprachmodelle LLM Multimodal

Familie multimodaler Sprachmodelle von Google DeepMind. Bekannt für native Bild-, Audio- und Videoverarbeitung sowie tiefe Integration in Google-Produkte.

Gemini ist die führende KI-Modellfamilie von Google DeepMind und der Nachfolger der früheren Bard- und PaLM-Modelle. Anders als viele Wettbewerber wurde Gemini von Grund auf multimodal konzipiert: Es verarbeitet Text, Bilder, Audio, Video und Code in einem einzigen Modell, ohne nachträglich angedockte Module.

Gemini ist in mehreren Größen verfügbar (Nano, Flash, Pro, Ultra) und wird über die Gemini-App, Google AI Studio, die API sowie Vertex AI in Google Cloud bereitgestellt. Die größten Modelle bieten extrem große Kontextfenster (bis zu 2 Millionen Tokens) und können komplette Filme, lange Audiomitschnitte oder ganze Codebasen in einer Anfrage analysieren.

Im praktischen Einsatz fließt Gemini tief in Googles Produkte ein: in die Suche (AI Overviews), in Workspace (Gmail, Docs, Sheets), in Android und ChromeOS sowie in Entwicklerwerkzeuge wie Gemini Code Assist. Auch in Conrat AI wird unter anderem Googles Bildmodell Nano Banana (Imagen-Familie) als Bildgenerator eingesetzt.

Gemini

Verwandte Begriffe

Claude

Large Language Models

Llama

Basismodelle

BERT