Gemini
Familie multimodaler Sprachmodelle von Google DeepMind. Bekannt für native Bild-, Audio- und Videoverarbeitung sowie tiefe Integration in Google-Produkte.
Gemini ist die führende KI-Modellfamilie von Google DeepMind und der Nachfolger der früheren Bard- und PaLM-Modelle. Anders als viele Wettbewerber wurde Gemini von Grund auf multimodal konzipiert: Es verarbeitet Text, Bilder, Audio, Video und Code in einem einzigen Modell, ohne nachträglich angedockte Module.
Gemini ist in mehreren Größen verfügbar (Nano, Flash, Pro, Ultra) und wird über die Gemini-App, Google AI Studio, die API sowie Vertex AI in Google Cloud bereitgestellt. Die größten Modelle bieten extrem große Kontextfenster (bis zu 2 Millionen Tokens) und können komplette Filme, lange Audiomitschnitte oder ganze Codebasen in einer Anfrage analysieren.
Im praktischen Einsatz fließt Gemini tief in Googles Produkte ein: in die Suche (AI Overviews), in Workspace (Gmail, Docs, Sheets), in Android und ChromeOS sowie in Entwicklerwerkzeuge wie Gemini Code Assist. Auch in Conrat AI wird unter anderem Googles Bildmodell Nano Banana (Imagen-Familie) als Bildgenerator eingesetzt.
Verwandte Begriffe
Claude
Familie großer Sprachmodelle des KI-Unternehmens Anthropic. Bekannt für lange Kontextfenster,…
Large Language Models
Large Language Models (LLMs) sind große maschinelle Lernmodelle, die auf riesigen Textmengen…
Llama
Familie offener großer Sprachmodelle von Meta (Facebook), deren Gewichte frei zugänglich sind.…
Basismodelle
Basismodelle sind große maschinelle Lernmodelle, die auf Basis einer großen Menge allgemeiner Daten…
BERT
Wegweisendes Sprachmodell von Google (2018), das die Verarbeitung natürlicher Sprache durch…