Sora

Videogenerierungs-Modell von OpenAI, das aus Text-Prompts realistische, mehrere Sekunden lange Videos erzeugt.

Sora ist das Text-zu-Video-Modell von OpenAI, das Anfang 2024 erstmals demonstriert und später als Produkt veröffentlicht wurde. Aus einem reinen Text-Prompt, etwa "Eine Frau geht bei Sonnenuntergang durch eine belebte Tokio-Straße, neonbeleuchtet", generiert Sora kohärente, mehrere Sekunden lange Videoclips mit konsistenter Physik, glaubwürdiger Beleuchtung und stabilen Charakteren.

Technisch nutzt Sora eine Kombination aus Diffusionsmodellen und Transformer-Architektur ("Diffusion Transformer"), erweitert um spezielle Video-Repräsentationen, die Inhalte als Sequenz raum-zeitlicher Patches verarbeiten. Damit kann das Modell auch lange Bewegungsabläufe, Kameraschwenks und realistische Objektinteraktionen über mehrere Sekunden hinweg konsistent halten.

Sora steht in direktem Wettbewerb mit Modellen wie Googles Veo, Runway Gen-3 oder Open-Source-Modellen wie Hunyuan Video. In der Praxis wird KI-generiertes Video für Marketing, Storyboarding, Werbespots, Social Media und Vorschauen im Filmbereich eingesetzt, gleichzeitig wirft die Technologie erhebliche Fragen zu Urheberrecht, Deepfakes und Authentizität auf.

Verwandte Begriffe