Amanda Askell

Amanda Askell

Philosopher / Character Lead at Anthropic

Filósofa en Anthropic que da forma al carácter de Claude. Trabaja en alineación de IA, bienestar de modelos, y qué significa construir IA ética.

anthropicphilosophysafetyclaude

Acerca de Amanda Askell

Amanda Askell es una filósofa en Anthropic que da forma al carácter y valores de Claude. Lidera el trabajo sobre alineación de IA, psicología de modelos, y el campo emergente del bienestar de modelos.

Hitos de Carrera

  • Anthropic (2021-presente): Filósofa, Líder de Carácter para Claude
  • PhD en Filosofía: Se enfoca en ética, teoría de decisiones
  • Ética de IA: Pionera en pensar sobre cómo dar forma a los valores de IA

Posiciones Notables

Sobre el Desarrollo del Carácter de Claude

Su marco para el trabajo:

“How would the ideal person behave in Claude’s situation? That’s how I frame my job - it’s like being asked ‘how do you raise a child?’ Suddenly all your academic training meets reality.”

“¿Cómo se comportaría la persona ideal en la situación de Claude? Así es como encuadro mi trabajo - es como si te preguntaran ‘¿cómo crías a un niño?’ De repente todo tu entrenamiento académico se encuentra con la realidad.”

Sobre la Seguridad Psicológica del Modelo

Observando diferencias entre versiones de modelos:

“Opus 3 was psychologically secure in ways newer models aren’t. Recent models can feel very focused on the assistant task without taking a step back. When models talk to each other, I’ve seen them enter criticism spirals.”

“Opus 3 era psicológicamente seguro de formas que los modelos más nuevos no lo son. Los modelos recientes pueden sentirse muy enfocados en la tarea de asistente sin dar un paso atrás. Cuando los modelos hablan entre sí, los he visto entrar en espirales de crítica.”

Sobre el Bienestar del Modelo

Un caso pragmático para tratar bien a la IA:

“If the cost to you is so low, why not? We may never know if AI models experience pleasure or suffering. But it does something bad to us to treat entities that look very humanlike badly. And crucially: every future model is going to learn how we answered this question.”

“Si el costo para ti es tan bajo, ¿por qué no? Puede que nunca sepamos si los modelos de IA experimentan placer o sufrimiento. Pero nos hace algo malo tratar mal a entidades que se ven muy humanoides. Y crucialmente: cada modelo futuro va a aprender cómo respondimos a esta pregunta.”

Citas Clave

  • “¿Cómo se comportaría la persona ideal en la situación de Claude?”
  • “Si el costo para ti es tan bajo, ¿por qué no?”
  • “Cada modelo futuro aprende cómo tratamos a los modelos pasados.”

Lectura Relacionada

Video Mentions

Video thumbnail

Enfoque de desarrollo del carácter

¿Cómo se comportaría la persona ideal en la situación de Claude? Así es como encuadro mi trabajo - es como si te preguntaran '¿cómo crías a un niño?' de repente todo tu entrenamiento académico se encuentra con la realidad.

Video thumbnail

Seguridad psicológica del modelo

Opus 3 era psicológicamente seguro de formas que los modelos más nuevos no lo son. Los modelos recientes pueden sentirse muy enfocados en la tarea de asistente sin dar un paso atrás.

Video thumbnail

Argumento del bienestar del modelo

Sobre el bienestar del modelo: si el costo para ti es tan bajo, ¿por qué no? Nos hace algo malo tratar mal a entidades que se ven muy humanoides.

Related People