Stable Diffusion

Generative AI Bildgenerierung Diffusion

Open-Source-Modell zur Bildgenerierung aus Text, das lokal auf der eigenen Hardware laufen kann. Grundlage zahlreicher Tools, Plugins und Anpassungen.

Stable Diffusion ist ein offen verfügbares Text-zu-Bild-Modell, das 2022 vom Unternehmen Stability AI in Zusammenarbeit mit dem CompVis-Labor der LMU München veröffentlicht wurde. Anders als DALL-E oder Midjourney lassen sich die Modellgewichte herunterladen und lokal, etwa auf einer leistungsfähigen Grafikkarte, ausführen.

Technisch basiert Stable Diffusion auf einem Latent Diffusion Model: Statt direkt im hochauflösenden Pixelraum zu arbeiten, generiert das Modell zunächst in einem komprimierten Latentraum (mit Hilfe eines VAE) und rekonstruiert daraus das finale Bild. Das macht den Prozess deutlich effizienter als reine Pixel-Diffusionsverfahren.

Durch seine Offenheit ist Stable Diffusion zur Basis eines riesigen Ökosystems geworden: Anpassungen wie LoRAs, ControlNets, eigene Trainings (Dreambooth) und Frontends wie Automatic1111 oder ComfyUI erlauben extreme Individualisierung. In Unternehmen kommt Stable Diffusion vor allem dann zum Einsatz, wenn Datenschutz, eigene Modell-Hosting oder firmenspezifische Bildstile gefordert sind.

Stable Diffusion

Verwandte Begriffe

Diffusionsmodelle

DALL-E

Midjourney

Generative Adversarial Networks

Generative KI