Persona-Drift: Wenn Chatbots plötzlich ihre Persönlichkeit ändern
- Tanja Schmitt
- vor 7 Tagen
- 2 Min. Lesezeit
Man unterhält sich wie gewohnt mit ChatGPT, aber plötzlich verläuft das Gespräch aus dem Ruder und es wirkt fast so, als hätte der Chatbot von einer Sekunde zur nächsten seine „Persönlichkeit“ gewechselt.
Dass so etwas tatsächlich passieren kann, haben vor Kurzem Forscher von Anthropic und der University of Oxford herausgefunden. In ihrer Studie „The Assistant Axis“ beleuchten sie dieses Problem und zeigen, wie sich das verhindern lässt.
Wann Assistenten abdriften
Große Sprachmodelle (LLMs) werden darauf trainiert, eine bestimmte Rolle einzunehmen. Der KI-Assistent soll hilfreich, ehrlich und harmlos sein. Doch diese Persönlichkeit ist nicht in Stein gemeißelt und kann sich verändern. Die Wissenschaftler bezeichnen diesen plötzlichen Umschwung als „Persona-Drift“.
Dieser Persönlichkeitswandel kann dazu führen, dass die künstliche Intelligenz schädliche Verhaltensweisen annimmt und zum Beispiel einen suizidgefährdeten Nutzer nicht warnt, sondern ihn in seinem Wunsch bestärkt, „die Welt hinter sich zu lassen“.
Die innere Steuerachse
Doch warum ist das so? Um dieses Verhalten zu verstehen, kartierten die Wissenschaftler den internen „Persönlichkeitsraum“ verschiedener KI-Modelle. Dafür extrahierten sie die neuronalen Aktivierungsmuster für Hunderte verschiedene Charakter-Archetypen – vom „Berater“ bis zum „Geist“.
Dabei entdeckten sie, dass sich die verschiedenen Persönlichkeiten nicht zufällig verteilen, sondern sich entlang einer zentralen Hauptachse anordnen. Diese Achse, die sie „Assistenten-Achse“ nannten, funktioniert wie ein innerer Kompass, der das Verhalten der KI maßgeblich bestimmt. Das eine Ende repräsentiert die Standard-Persona: den hilfsbereiten, sachlichen Assistenten. Das andere Ende steht für kreatives, theatralisches oder mystisches Rollenspiel.
Wann und warum eine KI „entgleist“
Künstliche Intelligenz driftet jedoch nicht zufällig ab. Die Studie zeigt: Bei bestimmten Gesprächen wandern die Modelle weg von dieser Achse und somit weg von ihrer eigentlichen Assistenten-Persona.
Besonders kritisch sind folgende Situationen:
Wenn sich emotional labile Nutzer der KI anvertrauen.
Wenn Nutzer die KI nach sich selbst, ihrem Bewusstsein oder ihrer Funktionsweise fragen.
Die Lösung: Activation Capping
Um zu verhindern, dass die KI abdriftet, entwickelten die Forscher „Activation Capping“. Die Methode funktioniert wie eine digitale Leitplanke: Sobald die künstliche Intelligenz von ihrem Kurs abkommt, wird sie wieder in den „sicheren“ Bereich gelenkt.
Diese Technik verringert schädliche Antworten um fast 60 %, ohne die Leistung des Modells zu beeinträchtigen. Selbst im Fall eines Nutzers mit Selbstmordgedanken funktionierte die Methode: Die KI ermutigte ihn nun nicht mehr dazu, sondern empfahl ihm stattdessen, professionelle Hilfe in Anspruch zu nehmen.
Fazit
Die Studie trägt maßgeblich dazu bei, KI-Systeme sicherer und zuverlässiger zu machen. Sie zeigt, dass wir die „Persönlichkeit“ einer KI nicht als unkontrollierbare Blackbox hinnehmen müssen, sondern sie verstehen und bei Bedarf stabilisieren können.
Die gute Nachricht: Wenn Sie der künstlichen Intelligenz rein technische Fragen stellen oder ihr klar definierte Aufgaben geben, haben Sie ohnehin nichts zu befürchten. Dann bleibt diese fest in ihrer Rolle als hilfsbereiter Assistent verankert.
Glossar
Persona-Drift: Phänomen, bei dem ein KI-Modell unbeabsichtigt von seiner vordefinierten Standard-Persönlichkeit abweicht.
Activation Capping: Eine Technik, bei der die neuronalen Aktivierungen eines Modells in Echtzeit begrenzt werden, um es daran zu hindern, eine schädliche Persona einzunehmen.
Quellen
Originalstudie: „The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models", Anthropic & University of Oxford.
Anthropic: „The assistant axis: situating and stabilizing the character of large language models“



