Synthetische Daten

Daten & Analytics Datenschutz Generative AI

Künstlich generierte Daten, die echten Daten ähneln, aber nicht von realen Quellen stammen. Synthetische Daten werden verwendet, um Datenschutzprobleme zu umgehen und zusätzliche Trainingsdaten für Ma...

Synthetische Daten sind kuenstlich erzeugte Datensaetze, die echten Daten in Struktur, Verteilung und statistischen Eigenschaften aehneln, aber nicht aus realen Messungen, Transaktionen oder Personen stammen. Sie werden mit Algorithmen erzeugt, haeufig auf Basis eines vorhandenen Originaldatensatzes, dessen Muster nachgebildet werden, ohne dass einzelne reale Datensaetze uebernommen werden. Das Ergebnis sind Tabellen, Bilder, Texte oder Sensordaten, die fuer Analysen oder das Training von KI-Modellen verwendbar sind.

Zur Erzeugung kommen unterschiedliche Verfahren zum Einsatz, etwa statistische Modelle, sogenannte Generative Adversarial Networks (GANs) oder grosse Sprachmodelle. Eingesetzt werden synthetische Daten dort, wo echte Daten knapp, sensibel oder unausgewogen sind: in der Medizin, im Finanzwesen, in der Bilderkennung fuer autonome Fahrzeuge oder beim Testen von Software. Auch seltene Faelle, etwa Betrugsmuster oder Produktionsfehler, lassen sich gezielt nachbilden, um KI-Modelle robuster zu machen. Wichtig ist die Qualitaetspruefung, denn die synthetischen Daten muessen die relevanten Eigenschaften der Originaldaten treffen, ohne diese eins zu eins zu kopieren.

Fuer kleine und mittlere Unternehmen im DACH-Raum sind synthetische Daten vor allem aus zwei Gruenden interessant. Erstens helfen sie, die Anforderungen der DSGVO einzuhalten: Wenn ein Dienstleister oder ein internes Team mit Kundendaten arbeiten soll, koennen synthetische Versionen dieser Daten weitergegeben werden, ohne dass Personenbezuege entstehen. Zweitens loesen sie das Problem zu kleiner Datenmengen. Ein Maschinenbauer mit wenigen dokumentierten Schadensfaellen oder ein Onlinehaendler mit saisonalen Luecken kann seinen Bestand durch synthetische Daten ergaenzen und so ueberhaupt erst sinnvoll KI-Anwendungen entwickeln. Auch fuer Softwaretests, Demos beim Kunden oder Schulungen bieten sich solche Daten an.

Grenzen bestehen dort, wo die synthetischen Daten Verzerrungen oder Luecken der Originaldaten uebernehmen oder sogar verstaerken. Zudem ist nicht jede Methode automatisch datenschutzkonform, eine fachliche Bewertung bleibt noetig. Verwandte Begriffe sind Anonymisierung, Pseudonymisierung und Data Augmentation.

Synthetische Daten

Verwandte Begriffe

Annotation

Big Data

Common Crawl

Cosine Similarity

DALL-E