Feature Engineering

Feature Engineering ist der Prozess der Auswahl, Transformation und Erstellung von Merkmalen (Features) aus Rohdaten, um die Leistung von maschinellen Lernmodellen zu verbessern. Es beinhaltet die Ide...

Feature Engineering bezeichnet die gezielte Aufbereitung von Rohdaten, damit ein Machine-Learning-Modell daraus sinnvolle Muster lernen kann. Ein "Feature" ist dabei ein einzelnes Merkmal, das einem Modell als Eingabe dient – etwa das Alter eines Kunden, der Wochentag einer Bestellung oder das Verhaeltnis zwischen Umsatz und Mitarbeiterzahl. Feature Engineering umfasst die Auswahl relevanter Merkmale, deren Umformung und das Erzeugen neuer, aussagekraeftiger Groessen aus bestehenden Daten.

In der Praxis liegen Daten selten in einer Form vor, mit der ein Algorithmus direkt gut arbeiten kann. Datumsangaben werden in Wochentag, Monat oder Saison zerlegt, Texte in Zahlenrepraesentationen umgewandelt, fehlende Werte ergaenzt und stark unterschiedliche Wertebereiche auf eine vergleichbare Skala gebracht. Auch das Kombinieren mehrerer Spalten zu einer neuen Kennzahl gehoert dazu, etwa der Umsatz pro Quadratmeter Verkaufsflaeche. Erfahrungsgemaess hat die Qualitaet der Features oft groesseren Einfluss auf das Ergebnis als die Wahl des Algorithmus selbst. Moderne Verfahren wie Deep Learning uebernehmen Teile dieser Arbeit automatisch, in vielen Geschaeftsanwendungen mit klassischen Modellen bleibt Feature Engineering jedoch ein zentraler Schritt.

Fuer kleine und mittlere Unternehmen ist das Thema vor allem dann relevant, wenn eigene Daten fuer Prognosen oder Auswertungen genutzt werden sollen – etwa zur Vorhersage von Absatzmengen, zur Bewertung von Kreditrisiken, zur Erkennung von Wartungsbedarf in Maschinen oder zur Kundensegmentierung. Wer einen externen Dienstleister oder eine Beratung beauftragt, sollte wissen, dass ein erheblicher Teil des Projektaufwands in genau diese Datenaufbereitung fliesst. Auch eigene Mitarbeitende mit Branchenkenntnis koennen hier einen wertvollen Beitrag leisten, weil sie wissen, welche Groessen im Geschaeftsalltag tatsaechlich aussagekraeftig sind. Eine saubere Datenbasis und gepflegte Stammdaten sind dabei die Grundvoraussetzung.

Die Grenzen liegen dort, wo Daten luecken- oder fehlerhaft sind oder wo wichtige Einflussfaktoren gar nicht erfasst werden. Verwandte Themen sind Datenvorverarbeitung, Feature Selection (die gezielte Auswahl der wichtigsten Merkmale) und automatisiertes Machine Learning (AutoML), das Teile des Feature Engineerings algorithmisch uebernimmt.

Verwandte Begriffe