Feature Engineering
Feature Engineering ist der Prozess der Auswahl, Transformation und Erstellung von Merkmalen (Features) aus Rohdaten, um die Leistung von maschinellen Lernmodellen zu verbessern. Es beinhaltet die Ide...
Feature Engineering bezeichnet die gezielte Aufbereitung von Rohdaten, damit ein Machine-Learning-Modell daraus sinnvolle Muster lernen kann. Ein "Feature" ist dabei ein einzelnes Merkmal, das einem Modell als Eingabe dient – etwa das Alter eines Kunden, der Wochentag einer Bestellung oder das Verhaeltnis zwischen Umsatz und Mitarbeiterzahl. Feature Engineering umfasst die Auswahl relevanter Merkmale, deren Umformung und das Erzeugen neuer, aussagekraeftiger Groessen aus bestehenden Daten.
In der Praxis liegen Daten selten in einer Form vor, mit der ein Algorithmus direkt gut arbeiten kann. Datumsangaben werden in Wochentag, Monat oder Saison zerlegt, Texte in Zahlenrepraesentationen umgewandelt, fehlende Werte ergaenzt und stark unterschiedliche Wertebereiche auf eine vergleichbare Skala gebracht. Auch das Kombinieren mehrerer Spalten zu einer neuen Kennzahl gehoert dazu, etwa der Umsatz pro Quadratmeter Verkaufsflaeche. Erfahrungsgemaess hat die Qualitaet der Features oft groesseren Einfluss auf das Ergebnis als die Wahl des Algorithmus selbst. Moderne Verfahren wie Deep Learning uebernehmen Teile dieser Arbeit automatisch, in vielen Geschaeftsanwendungen mit klassischen Modellen bleibt Feature Engineering jedoch ein zentraler Schritt.
Fuer kleine und mittlere Unternehmen ist das Thema vor allem dann relevant, wenn eigene Daten fuer Prognosen oder Auswertungen genutzt werden sollen – etwa zur Vorhersage von Absatzmengen, zur Bewertung von Kreditrisiken, zur Erkennung von Wartungsbedarf in Maschinen oder zur Kundensegmentierung. Wer einen externen Dienstleister oder eine Beratung beauftragt, sollte wissen, dass ein erheblicher Teil des Projektaufwands in genau diese Datenaufbereitung fliesst. Auch eigene Mitarbeitende mit Branchenkenntnis koennen hier einen wertvollen Beitrag leisten, weil sie wissen, welche Groessen im Geschaeftsalltag tatsaechlich aussagekraeftig sind. Eine saubere Datenbasis und gepflegte Stammdaten sind dabei die Grundvoraussetzung.
Die Grenzen liegen dort, wo Daten luecken- oder fehlerhaft sind oder wo wichtige Einflussfaktoren gar nicht erfasst werden. Verwandte Themen sind Datenvorverarbeitung, Feature Selection (die gezielte Auswahl der wichtigsten Merkmale) und automatisiertes Machine Learning (AutoML), das Teile des Feature Engineerings algorithmisch uebernimmt.
Verwandte Begriffe
Annotation
Im Kontext der künstlichen Intelligenz (KI) bezieht sich Annotation auf den Prozess, bei dem Daten…
Hyperparameter
Hyperparameter sind Konfigurationsparameter, die vor dem Training eines maschinellen Lernmodells…
Knowledge Distillation (Wissensdestillation)
Verfahren, bei dem ein kleines „Schüler"-Modell trainiert wird, die Fähigkeiten eines großen…
Machine Learning
Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz, der sich auf die Entwicklung…
Quantisierung
Technik zur Komprimierung von KI-Modellen, bei der die Rechengenauigkeit reduziert wird – für…