Weak Supervision
Trainingsansatz, bei dem KI-Modelle aus unsicheren oder automatisch erzeugten Labels lernen, statt aus perfekten, manuell annotierten Daten.
Weak Supervision (schwache Überwachung) ist eine Familie von Trainingsverfahren, bei denen Modelle nicht aus perfekt annotierten Daten lernen, sondern aus Labels, die unsicher, verrauscht oder nur indirekt sind. Damit lässt sich der größte Engpass des klassischen Supervised Learning umgehen: der enorme manuelle Aufwand für saubere Trainingslabels.
Typische Quellen schwacher Labels sind heuristische Regeln, externe Datenbanken, Wissensgraphen, automatisierte Klassifikatoren oder Crowdsourcing-Antworten. Diese einzelnen Signale sind für sich genommen ungenau, lassen sich aber durch geschickte Kombinationsverfahren, etwa Frameworks wie Snorkel, zu hochwertigen Trainingssignalen verschmelzen.
In der Praxis ist Weak Supervision besonders wertvoll, wo gelabelte Daten teuer oder rar sind: in der Medizin, im Recht, bei Fachterminologie oder in Sprachen mit wenig digitalem Material. Auch beim Pretraining moderner Sprachmodelle spielen schwache Signale eine zentrale Rolle, da hier auf Internet-Text statt auf saubere Labels zurückgegriffen wird.
Verwandte Begriffe
Data Labeling
Maschinelle Lernsysteme benötigen oft menschliche Annotatoren, um Daten zu beschriften oder zu…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Big Data
Mit Big Data werden Mengen von Daten bezeichnet, die zu groß, zu komplex, zu schnelllebig oder zu…
Classification
Im Bereich der künstlichen Intelligenz (KI) bezieht sich Klassifikation auf eine Art des…
Common Crawl
Common Crawl ist eine gemeinnützige Initiative, die das Web durchforstet, um umfangreiche Archive…