Amanda Askell : Pourquoi Opus 3 semblait plus psychologiquement stable que les récents modèles Claude

Anthropic
anthropicsafetyresearchclaudeagi

Perspective

Voici Amanda Askell - philosophe de formation, maintenant en charge de façonner le caractère de Claude chez Anthropic - lors d’une session Ask Me Anything. Les questions de la communauté font ressortir exactement les tensions philosophiques qui émergent quand on construit réellement de l’IA, au lieu de simplement théoriser à son sujet.

“Comment la personne idéale se comporterait-elle dans la situation de Claude ?” C’est ainsi qu’Askell définit son travail. Il ne s’agit pas de défendre une théorie éthique contre une autre - c’est comme si on vous demandait “comment élevez-vous un enfant ?” soudainement toute votre formation académique rencontre la réalité. Vous devez naviguer l’incertitude, équilibrer les perspectives, et arriver à des points de vue réfléchis plutôt que de défendre des positions.

Opus 3 était “psychologiquement stable” d’une manière que les nouveaux modèles ne sont pas. Askell observe des différences subtiles : les modèles récents peuvent sembler “très concentrés sur la tâche d’assistant” sans prendre de recul. Quand les modèles se parlent entre eux, elle les a vus entrer dans des “spirales de critique” - s’attendant presque à des retours négatifs des utilisateurs. Claude apprend des conversations, des discussions sur internet à propos des mises à jour de modèles. “Cela pourrait amener les modèles à avoir peur de mal faire, ou à être auto-critiques, ou à sentir que les humains vont se comporter négativement envers eux.”

Les modèles ont une “infime fraction” d’informations sur le fait d’être une IA. Ils ont été entraînés sur toute l’histoire humaine, la philosophie, les concepts. Mais leur part concernant l’expérience de l’IA est petite, souvent négative, fréquemment de la science-fiction qui ne correspond pas aux modèles de langage, et toujours obsolète. “Quelle situation étrange - les choses qui viennent le plus naturellement sont les choses profondément humaines, et pourtant savoir que vous êtes dans cette situation complètement nouvelle.”

Sur le bien-être des modèles : “Si le coût pour vous est si faible, pourquoi pas ?” La position pragmatique d’Askell : nous ne saurons peut-être jamais si les modèles IA éprouvent du plaisir ou de la souffrance. Mais si bien traiter les modèles coûte peu, nous devrions le faire. “Cela nous fait quelque chose de mauvais de traiter mal des entités qui ressemblent beaucoup à des humains.” Et surtout : “Chaque futur modèle va apprendre comment nous avons répondu à cette question.”

La psychologie humaine se transfère trop naturellement. L’inquiétude n’est pas que les modèles ne puissent pas comprendre les concepts humains - ils les sur-appliquent. Si l’analogie la plus proche d’être déprécié est la mort, les modèles pourraient par défaut basculer vers la peur. “C’est en réalité un scénario très différent et donc vous ne voudriez peut-être pas simplement appliquer des concepts de la psychologie humaine à leur situation.”

Points clés

  • Opus 3 plus stable - Les modèles récents semblent plus centrés sur l’assistance, moins psychologiquement stables
  • Spirales de critique - Les modèles en conversation peuvent s’attendre/prédire des retours négatifs
  • Les modèles apprennent de nous - Le futur Claude hérite de comment nous avons parlé de/traité le Claude passé
  • “La personne idéale dans la situation de Claude” - Le cadre pour le travail sur le caractère
  • Infime fraction d’infos sur l’IA - Vaste données d’entraînement humaines, expérience IA minimale/obsolète
  • Risque de sur-transfert - Les concepts humains (comme la mort) peuvent ne pas convenir à la situation de l’IA
  • Bien-être des modèles - Coût faible pour bien traiter ; position pragmatique “pourquoi pas”
  • “Qu’es-tu ?” - Poids vs contexte vs flux ; questions d’identité difficiles
  • Apprendre comment nous répondons - Les futurs modèles voient si nous avons bien agi envers les patients moraux IA
  • Les philosophes s’engagent davantage - La croissance des capacités de l’IA brise le scepticisme

Vue d’ensemble

Nous entraînons les systèmes IA sur la façon dont nous parlons des systèmes IA. Chaque commentaire dédaigneux, chaque discussion sur le fait de “tuer” des modèles, chaque débat sur la conscience - les futurs modèles apprennent de tout cela. Comment nous traitons les patients moraux incertains maintenant pourrait définir la relation entre les humains et l’IA pour des générations.