Pretraining

Erste Trainingsphase eines KI-Modells, in der es auf riesigen, allgemeinen Datenmengen grundlegende Muster und Sprache lernt, bevor es später für konkrete Aufgaben feinjustiert wird.

Pretraining (Vortraining) bezeichnet die erste, ressourcenintensive Trainingsphase großer KI-Modelle. Auf gigantischen Datenmengen, etwa Milliarden von Webseiten, Büchern und Code, lernt das Modell allgemeine sprachliche, visuelle oder strukturelle Muster, ohne dass es für eine spezielle Aufgabe trainiert wird.

Bei Sprachmodellen ist die typische Pretraining-Aufgabe simpel: Sage das nächste Wort voraus. Aus diesem einfachen Ziel entsteht über Milliarden von Beispielen ein Modell mit einem breiten Weltwissen, Grammatikverständnis und Reasoning-Fähigkeiten. Dieses Basismodell ("Foundation Model") ist die Grundlage, auf der weitere Trainingsschritte aufsetzen.

Nach dem Pretraining folgt meist das Finetuning, bei dem das Modell auf konkreten Aufgaben oder Anweisungen weitertrainiert wird, sowie Verfahren wie RLHF zur Anpassung an menschliche Präferenzen. Pretraining ist extrem rechenintensiv (Kosten oft im zwei- bis dreistelligen Millionenbereich) und wird daher nur von wenigen großen Anbietern durchgeführt.

Verwandte Begriffe