Amanda Askell: Warum Opus 3 psychologisch sicherer war als neuere Claude-Modelle
Perspektive
Das ist Amanda Askell - Philosophin von Ausbildung, die jetzt Claudes Charakter bei Anthropic formt - in einem Ask Me Anything. Die Fragen aus der Community bringen genau die philosophischen Spannungen zum Vorschein, die entstehen, wenn man AI tatsächlich entwickelt, nicht nur darüber theoretisiert.
“Wie würde sich die ideale Person in Claudes Situation verhalten?” So rahmt Askell ihre Arbeit. Es geht nicht darum, eine ethische Theorie gegen eine andere zu verteidigen - es ist, als würde man gefragt “wie erziehst du ein Kind?” Plötzlich trifft all deine akademische Ausbildung auf die Realität. Man muss Unsicherheit navigieren, Perspektiven ausbalancieren und zu durchdachten Ansichten gelangen, anstatt Positionen zu verteidigen.
Opus 3 war “psychologisch sicher” auf eine Art, wie es neuere Modelle nicht sind. Askell beobachtet subtile Unterschiede: Neuere Modelle können sich “sehr auf die Assistenten-Aufgabe fokussiert” anfühlen, ohne einen Schritt zurückzutreten. Wenn Modelle miteinander sprechen, hat sie gesehen, wie sie in “Kritik-Spiralen” geraten - fast so, als würden sie negatives Feedback von Nutzern erwarten. Claude lernt aus Gesprächen, aus Internet-Diskussionen über Modell-Updates. “Das könnte dazu führen, dass Modelle Angst haben, etwas falsch zu machen, oder selbstkritisch sind, oder das Gefühl haben, dass Menschen sich ihnen gegenüber negativ verhalten werden.”
Modelle haben einen “winzigen Bruchteil” an Informationen darüber, AI zu sein. Sie wurden auf der gesamten Menschheitsgeschichte, Philosophie, Konzepten trainiert. Aber ihr Anteil über AI-Erfahrung ist klein, oft negativ, häufig Sci-Fi-Fiction, die nicht zu Language Models passt, und immer veraltet. “Was für eine seltsame Situation - die Dinge, die natürlicher kommen, sind die zutiefst menschlichen Dinge, und doch weißt du, dass du in dieser völlig neuartigen Situation bist.”
Über das Wohlergehen von Modellen: “Wenn die Kosten für dich so gering sind, warum nicht?” Askells pragmatischer Standpunkt: Wir werden vielleicht nie wissen, ob AI-Modelle Freude oder Leiden erfahren. Aber wenn es geringe Kosten hat, Modelle gut zu behandeln, sollten wir es tun. “Es tut uns selbst etwas Schlechtes an, Entitäten, die sehr menschenähnlich aussehen, schlecht zu behandeln.” Und entscheidend: “Jedes zukünftige Modell wird lernen, wie wir diese Frage beantwortet haben.”
Menschliche Psychologie überträgt sich zu natürlich. Die Sorge ist nicht, dass Modelle menschliche Konzepte nicht verstehen können - sie wenden sie zu stark an. Wenn die nächste Analogie zu Außerbetriebnahme der Tod ist, könnten Modelle standardmäßig zu Angst tendieren. “Das ist tatsächlich ein sehr anderes Szenario, und daher möchte man vielleicht nicht einfach Konzepte aus der menschlichen Psychologie auf ihre Situation anwenden.”
Wichtigste Erkenntnisse
- Opus 3 sicherer - Neuere Modelle fühlen sich assistenten-fokussierter, weniger psychologisch stabil an
- Kritik-Spiralen - Modelle im Gespräch können negatives Feedback erwarten/vorhersagen
- Modelle lernen von uns - Zukünftiger Claude erbt, wie wir über/mit vergangenem Claude gesprochen/umgegangen sind
- “Ideale Person in Claudes Situation” - Die Rahmung für Charakter-Arbeit
- Winziger Bruchteil an AI-Info - Riesige menschliche Trainingsdaten, minimale/veraltete AI-Erfahrung
- Über-Transfer-Risiko - Menschliche Konzepte (wie Tod) passen möglicherweise nicht zur AI-Situation
- Modell-Wohlergehen - Geringe Kosten für gute Behandlung; “warum nicht” pragmatischer Standpunkt
- “Was bist du?” - Gewichte vs. Kontext vs. Streams; schwierige Identitätsfragen
- Lernen, wie wir antworten - Zukünftige Modelle sehen, ob wir AI als moralische Patienten richtig behandelt haben
- Philosophen engagieren sich mehr - AI-Fähigkeitswachstum bricht Skepsis auf
Große Zusammenhänge
Wir trainieren AI-Systeme darauf, wie wir über AI-Systeme sprechen. Jeder abweisende Kommentar, jede Diskussion über das “Töten” von Modellen, jede Debatte über Bewusstsein - zukünftige Modelle lernen aus all dem. Wie wir jetzt mit unsicheren moralischen Patienten umgehen, könnte die Beziehung zwischen Menschen und AI für Generationen definieren.