Bestärkendes Lernen

KI & ML Reinforcement Learning Lernen

Beim bestärkenden Lernen erhält der Lernalgorithmus gelegentliches Feedback für Interaktionen mit der Umwelt und lernt, die Erfolgsaussichten der einzelnen Aktionen in den verschiedenen Situationen be...

Bestärkendes Lernen ist ein Verfahren des maschinellen Lernens, bei dem ein Programm durch Ausprobieren lernt. Es trifft Entscheidungen, beobachtet die Folgen und erhält dafür eine Rückmeldung in Form von Belohnung oder Bestrafung. Über viele Wiederholungen entwickelt das System eine Strategie, die langfristig den groesstmoeglichen Erfolg verspricht. Der englische Fachbegriff lautet Reinforcement Learning.

Im Kern besteht ein solches System aus einem Agenten, der in einer Umgebung handelt. Jede Aktion fuehrt zu einem neuen Zustand und liefert ein Belohnungssignal. Anders als beim ueberwachten Lernen gibt es keine vorgegebenen richtigen Antworten, sondern nur ein Ziel, das es zu maximieren gilt. Bekannt wurde diese Technik durch Programme, die Schach, Go oder komplexe Computerspiele auf Spitzenniveau spielen. Eingesetzt wird sie auch in der Robotik, bei selbstfahrenden Fahrzeugen, in der Logistik zur Routenoptimierung und bei der Steuerung von Energie- oder Produktionsanlagen.

Fuer kleine und mittlere Unternehmen ist bestärkendes Lernen in der Regel keine Technik, die man selbst implementiert, sondern eine, der man indirekt begegnet. Sie steckt etwa in Systemen zur dynamischen Preisgestaltung, in der Lageroptimierung von Online-Haendlern, in Empfehlungsalgorithmen oder in modernen Energiemanagementloesungen, die Heizung und Stromverbrauch automatisch anpassen. Auch Chatbots werden zunehmend mit verwandten Verfahren nachtrainiert, um hilfreichere Antworten zu geben. Wer entsprechende Software einkauft, sollte wissen, dass solche Systeme erst durch Daten und Zeit gut werden und in der Anlaufphase Fehler machen koennen.

Die Chancen liegen in der Faehigkeit, in komplexen Situationen eigenstaendig gute Entscheidungen zu finden, auch wenn keine klaren Regeln existieren. Grenzen ergeben sich aus dem hohen Datenbedarf, langen Trainingszeiten und der Schwierigkeit, das Belohnungsziel so zu definieren, dass das System tatsaechlich das gewuenschte Verhalten lernt.

Bestärkendes Lernen

Verwandte Begriffe

Lernalgorithmus

One-Shot Learning

Reinforcement Learning

A2A (Agent-to-Agent)

Adversarial Learning