Tag

Alle Begriffe mit dem Tag «Alignment»

4 Einträge im KI-Lexikon

Forschungs- und Praxisfeld, das sicherstellen soll, dass KI-Systeme die Ziele, Werte und Absichten ihrer Nutzer und der Gesellschaft…

Von Anthropic entwickelter Ansatz, bei dem KI-Modelle anhand eines Satzes von Prinzipien sich selbst korrigieren – für sichere KI mit…

Trainingsverfahren, mit dem Sprachmodelle direkt aus Präferenzpaaren lernen, eine einfachere Alternative zum klassischen RLHF.

Trainingsmethode, bei der menschliche Bewerter KI-Antworten bewerten und so das Modell an menschliche Werte und Präferenzen anpassen –…