Tag
Alle Begriffe mit dem Tag «Alignment»
4 Einträge im KI-Lexikon
Alignment
Forschungs- und Praxisfeld, das sicherstellen soll, dass KI-Systeme die Ziele, Werte und Absichten ihrer Nutzer und der Gesellschaft…
Ethik & SicherheitAlignmentForschung
Constitutional AI
Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich selbst korrigieren – für sichere KI mit…
KI & MLAlignmentSicherheit+1
DPO (Direct Preference Optimization)
Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere Alternative zum klassischen RLHF.
TrainingAlignmentModelloptimierung
RLHF (Reinforcement Learning from Human Feedback)
Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an menschliche Werte und Präferenzen anpassen –…
KI & MLTrainingAlignment+1