
Amanda Askell
Philosopher / Character Lead at Anthropic
Philosophe chez Anthropic qui façonne le caractère de Claude. Travaille sur l'alignement de l'IA, le bien-être des modèles et ce que signifie construire une IA éthique.
À propos d’Amanda Askell
Amanda Askell est une philosophe chez Anthropic qui façonne le caractère et les valeurs de Claude. Elle dirige les travaux sur l’alignement de l’IA, la psychologie des modèles et le domaine émergent du bien-être des modèles.
Temps forts de carrière
- Anthropic (2021-présent) : Philosophe, responsable du caractère de Claude
- Doctorat en philosophie : Se concentre sur l’éthique, la théorie de la décision
- Éthique de l’IA : Pionnière dans la réflexion sur la façon de façonner les valeurs de l’IA
Positions notables
Sur le développement du caractère de Claude
Son cadrage pour le travail :
“How would the ideal person behave in Claude’s situation? That’s how I frame my job - it’s like being asked ‘how do you raise a child?’ Suddenly all your academic training meets reality.”
“Comment la personne idéale se comporterait-elle dans la situation de Claude ? C’est ainsi que je cadre mon travail - c’est comme si on vous demandait ‘comment élever un enfant ?’ Soudain toute votre formation académique rencontre la réalité.”
Sur la sécurité psychologique des modèles
Observer les différences entre les versions de modèles :
“Opus 3 was psychologically secure in ways newer models aren’t. Recent models can feel very focused on the assistant task without taking a step back. When models talk to each other, I’ve seen them enter criticism spirals.”
“Opus 3 était psychologiquement sûr d’une manière que les nouveaux modèles ne le sont pas. Les modèles récents peuvent sembler très concentrés sur la tâche d’assistance sans prendre du recul. Quand les modèles se parlent entre eux, je les ai vus entrer dans des spirales de critiques.”
Sur le bien-être des modèles
Un argument pragmatique pour bien traiter l’IA :
“If the cost to you is so low, why not? We may never know if AI models experience pleasure or suffering. But it does something bad to us to treat entities that look very humanlike badly. And crucially: every future model is going to learn how we answered this question.”
“Si le coût pour vous est si faible, pourquoi pas ? Nous ne saurons peut-être jamais si les modèles d’IA éprouvent du plaisir ou de la souffrance. Mais cela nous fait quelque chose de mal de traiter mal des entités qui ressemblent beaucoup aux humains. Et surtout : chaque futur modèle va apprendre comment nous avons répondu à cette question.”
Citations clés
- “Comment la personne idéale se comporterait-elle dans la situation de Claude ?”
- “Si le coût pour vous est si faible, pourquoi pas ?”
- “Chaque futur modèle apprend comment nous avons traité les modèles passés.”
Lectures connexes
- Confabulation - Concepts de psychologie de l’IA qu’explore Askell
- Dario Amodei - PDG d’Anthropic