XGBoost

XGBoost (Extreme Gradient Boosting) ist eine optimierte Implementierung des Gradient Boosting Algorithmus für maschinelles Lernen. Es ist bekannt für seine hohe Leistung bei strukturierten Daten und w...

XGBoost steht für "Extreme Gradient Boosting" und ist ein Verfahren des maschinellen Lernens, das aus vielen kleinen Entscheidungsbäumen ein starkes Gesamtmodell erzeugt. Der Algorithmus wurde 2014 von Tianqi Chen entwickelt und gilt seitdem als eines der leistungsfähigsten Werkzeuge für die Analyse strukturierter Daten, also Daten in Tabellenform wie sie in nahezu jedem Unternehmen anfallen.

Die Funktionsweise lässt sich vereinfacht so beschreiben: XGBoost baut nacheinander viele Entscheidungsbäume auf, wobei jeder neue Baum gezielt die Fehler der vorherigen ausgleicht. Dieses schrittweise Lernen aus eigenen Fehlern wird Gradient Boosting genannt. XGBoost erweitert dieses Prinzip um technische Verbesserungen wie parallele Berechnung, sparsame Speichernutzung und Mechanismen gegen Überanpassung. Dadurch liefert das Verfahren auch bei mittelgroßen Datenmengen sehr genaue Vorhersagen, ohne dass besonders teure Hardware nötig wäre. Eingesetzt wird XGBoost zur Klassifikation, etwa "wird dieser Kunde kündigen?", zur Vorhersage von Zahlenwerten, etwa Umsatz oder Lagerbedarf, und zur Bewertung von Risiken.

Für den Mittelstand ist XGBoost relevant, weil viele typische Geschäftsfragen mit Tabellendaten zu tun haben: Daten aus dem ERP-System, der Buchhaltung, dem CRM oder dem Online-Shop. Praktische Anwendungsfälle sind die Vorhersage von Kundenabwanderung, Bonitätsbewertung, Betrugserkennung bei Zahlungen, Absatzprognosen für die Lagerplanung oder die Priorisierung von Vertriebsleads. Im Gegensatz zu neuronalen Netzen, die vor allem bei Bildern, Sprache und Text glänzen, ist XGBoost bei klassischen Geschäftsdaten oft die treffsicherere und gleichzeitig sparsamere Wahl. Externe Dienstleister oder Data-Science-Beratungen setzen das Verfahren häufig als Standardwerkzeug ein, weil es vergleichsweise schnell zu brauchbaren Ergebnissen führt.

Zu beachten ist, dass XGBoost zwar sehr genaue Modelle liefert, deren Entscheidungen aber nicht immer leicht nachvollziehbar sind. Für regulierte Bereiche wie Kreditvergabe oder Personalentscheidungen sollten daher ergänzende Methoden zur Erklärbarkeit eingesetzt werden, etwa SHAP-Werte. Verwandte Verfahren sind LightGBM und CatBoost, die ähnliche Stärken haben und je nach Datensituation ebenfalls einen Blick wert sind.

Verwandte Begriffe