Diffusionsmodelle
Diffusionsmodelle können Daten erzeugen, die ihren Trainingsdaten ähneln. Als generative KI-Modelle sind sie in der Lage, Bilder auf der Grundlage eines Text-Prompts zu erzeugen. Dies wird erreicht, i...
Diffusionsmodelle sind eine Klasse generativer KI-Modelle, die neue Inhalte – meist Bilder, zunehmend aber auch Videos, Musik oder 3D-Objekte – aus dem Nichts erzeugen koennen. Sie zaehlen heute zu den leistungsfaehigsten Verfahren der Bildgenerierung und stehen hinter bekannten Werkzeugen wie Stable Diffusion, Midjourney oder DALL-E.
Das Grundprinzip ist bemerkenswert einfach: Waehrend des Trainings werden echten Bildern Schritt fuer Schritt zufaellige Stoerungen (sogenanntes Rauschen) hinzugefuegt, bis am Ende nur noch ein unkenntliches Bildrauschen uebrig bleibt. Das Modell lernt, diesen Prozess umzukehren – also aus reinem Rauschen schrittweise wieder ein sinnvolles Bild zu rekonstruieren. Ist das Modell trainiert, kann es aus einer zufaelligen Rauschvorlage und einer Textbeschreibung (dem sogenannten Prompt) ein voellig neues Bild erzeugen, das den Vorgaben entspricht. Der Entrauschungsprozess laeuft dabei in mehreren Durchgaengen ab und wird durch die Texteingabe gesteuert, sodass Stil, Motiv und Details kontrolliert werden koennen.
Fuer kleine Unternehmen und Selbststaendige sind Diffusionsmodelle vor allem als praktisches Werkzeug fuer visuelle Inhalte interessant. Produktfotos, Illustrationen fuer Blogartikel, Social-Media-Grafiken, Moodboards oder Entwuerfe fuer Werbeanzeigen lassen sich damit in Minuten erzeugen, ohne dass eine Fotoproduktion oder ein Grafikbuero beauftragt werden muss. Auch im Bereich Produktdesign, Innenarchitektur oder Mode entstehen so schnell Variantenvorschlaege. Wer Bilder generieren laesst, sollte allerdings rechtliche Fragen im Blick behalten: Urheberrecht, Markenrechte und die Nutzungsbedingungen der jeweiligen Anbieter klaeren, ob die Ergebnisse kommerziell verwendet werden duerfen.
Diffusionsmodelle haben die Bildgenerierung in wenigen Jahren von einer Forschungsspielerei zu einem alltagstauglichen Werkzeug gemacht. Grenzen zeigen sie weiterhin bei feinen Details wie Haenden, Schrift oder fotorealistischen Gesichtern bestimmter Personen. Verwandte Verfahren sind GANs (Generative Adversarial Networks) und Variational Autoencoder, die aehnliche Ziele verfolgen, in der Praxis aber zunehmend von Diffusionsansaetzen verdraengt werden.
Verwandte Begriffe
Stable Diffusion
Open-Source-Modell zur Bildgenerierung aus Text, das lokal auf der eigenen Hardware laufen kann.…
DALL-E
Bildgenerierungsmodell von OpenAI, das aus Text-Prompts hochwertige Bilder erstellt. Eines der…
Midjourney
Bekanntes Bildgenerierungs-Tool, das für seinen besonders ästhetischen und künstlerischen Bildstil…
Generative Adversarial Networks
Generative Adversarial Networks (GANs) sind eine Art von KI-Architektur, die aus zwei…
Generative KI
Generative KI-Modelle werden eingesetzt, um neue Daten zu erzeugen, die ähnliche statistische…