Hyperparameter
Hyperparameter sind Konfigurationsparameter, die vor dem Training eines maschinellen Lernmodells festgelegt werden und nicht während des Trainings gelernt werden. Sie steuern den Lernprozess und die A...
Hyperparameter sind Einstellgrößen, die vor dem Training eines KI-Modells festgelegt werden und den Lernprozess steuern. Im Unterschied zu den eigentlichen Modellparametern, die das System während des Trainings selbst aus den Daten lernt, werden Hyperparameter von Entwicklerinnen und Entwicklern manuell gewählt oder durch systematische Suchverfahren bestimmt. Sie geben gewissermaßen den Rahmen vor, innerhalb dessen ein Modell lernt.
Typische Hyperparameter sind die Lernrate, also wie stark sich das Modell bei jedem Trainingsschritt anpasst, die Anzahl und Größe der Schichten in einem neuronalen Netz, die Stapelgröße (Batchgröße) der Trainingsdaten oder die Zahl der Trainingsdurchläufe. Auch bei einfacheren Verfahren wie Entscheidungsbäumen oder Clustering-Algorithmen gibt es Hyperparameter, etwa die maximale Baumtiefe oder die Anzahl gewünschter Gruppen. Die richtige Wahl beeinflusst maßgeblich, wie genau, wie schnell und wie zuverlässig ein Modell arbeitet. Üblich sind Verfahren wie Rastersuche (Grid Search), Zufallssuche oder bayessche Optimierung, um eine gute Kombination zu finden.
Für kleine und mittlere Unternehmen sind Hyperparameter meist dann relevant, wenn eigene Modelle trainiert oder bestehende Modelle an die eigenen Daten angepasst werden. Wer etwa ein Sprachmodell mit Firmendokumenten nachtrainiert (Fine-Tuning) oder ein Bildklassifikationsmodell für die Qualitätskontrolle einsetzt, stößt unweigerlich auf diese Stellschrauben. In den meisten Fällen übernimmt dies ein Dienstleister oder eine spezialisierte Plattform, dennoch lohnt sich ein Grundverständnis: Eine schlechte Wahl kann zu ungenauen Vorhersagen, langen Trainingszeiten oder unnötig hohen Rechenkosten führen. Beim Einkauf von KI-Leistungen kann es daher sinnvoll sein, nach der Vorgehensweise bei der Hyperparameter-Optimierung zu fragen.
Die Optimierung von Hyperparametern ist aufwendig, weil jede Variante einen kompletten Trainingsdurchlauf erfordert. Moderne Werkzeuge automatisieren diesen Prozess weitgehend, etwa unter dem Stichwort AutoML. Damit wird Modelloptimierung auch für Unternehmen ohne eigenes Forschungsteam praktikabel.
Verwandte Begriffe
Knowledge Distillation (Wissensdestillation)
Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen…
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Classification
Im Bereich der künstlichen Intelligenz (KI) bezieht sich Klassifikation auf eine Art des…
DPO (Direct Preference Optimization)
Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere…
Feature Engineering
Feature Engineering ist der Prozess der Auswahl, Transformation und Erstellung von Merkmalen…