Weak Supervision

Training Daten & Analytics Annotation

Trainingsansatz, bei dem KI-Modelle aus unsicheren oder automatisch erzeugten Labels lernen, statt aus perfekten, manuell annotierten Daten.

Weak Supervision (schwache Überwachung) ist eine Familie von Trainingsverfahren, bei denen Modelle nicht aus perfekt annotierten Daten lernen, sondern aus Labels, die unsicher, verrauscht oder nur indirekt sind. Damit lässt sich der größte Engpass des klassischen Supervised Learning umgehen: der enorme manuelle Aufwand für saubere Trainingslabels.

Typische Quellen schwacher Labels sind heuristische Regeln, externe Datenbanken, Wissensgraphen, automatisierte Klassifikatoren oder Crowdsourcing-Antworten. Diese einzelnen Signale sind für sich genommen ungenau, lassen sich aber durch geschickte Kombinationsverfahren, etwa Frameworks wie Snorkel, zu hochwertigen Trainingssignalen verschmelzen.

In der Praxis ist Weak Supervision besonders wertvoll, wo gelabelte Daten teuer oder rar sind: in der Medizin, im Recht, bei Fachterminologie oder in Sprachen mit wenig digitalem Material. Auch beim Pretraining moderner Sprachmodelle spielen schwache Signale eine zentrale Rolle, da hier auf Internet-Text statt auf saubere Labels zurückgegriffen wird.

Weak Supervision

Verwandte Begriffe

Data Labeling

Annotation

Big Data

Classification

Common Crawl