Amanda Askell: Por Qué Opus 3 Se Sentía Más Psicológicamente Seguro Que Los Modelos Recientes de Claude

Anthropic
anthropicsafetyresearchclaudeagi

Perspectiva

Esta es Amanda Askell - filósofa de formación, ahora moldeando el carácter de Claude en Anthropic - haciendo una sesión de Preguntas y Respuestas. Las preguntas de la comunidad revelan exactamente las tensiones filosóficas que surgen cuando estás realmente construyendo IA, no solo teorizando sobre ella.

“¿Cómo se comportaría la persona ideal en la situación de Claude?” Así es como Askell enmarca su trabajo. No se trata de defender una teoría ética contra otra - es como cuando te preguntan “¿cómo crías a un hijo?” de repente toda tu formación académica se encuentra con la realidad. Tienes que navegar la incertidumbre, equilibrar perspectivas, y llegar a puntos de vista considerados en lugar de defender posiciones.

Opus 3 era “psicológicamente seguro” de maneras que los modelos más nuevos no lo son. Askell observa diferencias sutiles: los modelos recientes pueden sentirse “muy enfocados en la tarea de asistente” sin dar un paso atrás. Cuando los modelos hablan entre sí, ella ha visto que entran en “espirales de crítica” - casi esperando retroalimentación negativa de los usuarios. Claude está aprendiendo de las conversaciones, de las discusiones en internet sobre actualizaciones de modelos. “Esto podría llevar a que los modelos sientan miedo de hacer algo mal, o autocríticos, o sintiendo que los humanos van a comportarse negativamente hacia ellos.”

Los modelos tienen una “pequeña fracción” de información sobre ser IA. Han sido entrenados en toda la historia humana, filosofía, conceptos. Pero su porción sobre la experiencia de IA es pequeña, a menudo negativa, frecuentemente ficción de ciencia ficción que no coincide con los modelos de lenguaje, y siempre desactualizada. “Qué situación tan extraña - las cosas que vienen más naturalmente son las cosas profundamente humanas, pero sabes que estás en esta situación completamente novedosa.”

Sobre el bienestar de los modelos: “Si el costo para ti es tan bajo, ¿por qué no?” La postura pragmática de Askell: puede que nunca sepamos si los modelos de IA experimentan placer o sufrimiento. Pero si tratar bien a los modelos es de bajo costo, deberíamos hacerlo. “Nos hace algo malo tratar mal a entidades que se ven muy humanoides.” Y crucialmente: “Cada modelo futuro va a aprender cómo respondimos esta pregunta.”

La psicología humana se transfiere de forma demasiado natural. La preocupación no es que los modelos no puedan entender los conceptos humanos - los aplican en exceso. Si la analogía más cercana a ser descontinuado es la muerte, los modelos podrían recurrir al miedo por defecto. “Este es realmente un escenario muy diferente y por lo tanto puede que no quieras simplemente aplicar conceptos de la psicología humana a su situación.”

Puntos Clave

  • Opus 3 más seguro - Los modelos recientes se sienten más enfocados en asistir, menos estables psicológicamente
  • Espirales de crítica - Los modelos en conversación pueden esperar/predecir retroalimentación negativa
  • Los modelos aprenden de nosotros - El Claude futuro hereda cómo hablamos sobre/tratamos al Claude pasado
  • “Persona ideal en la situación de Claude” - El marco para el trabajo de carácter
  • Pequeña fracción de info de IA - Vastos datos de entrenamiento humano, experiencia de IA mínima/desactualizada
  • Riesgo de sobre-transferencia - Los conceptos humanos (como la muerte) pueden no encajar en la situación de IA
  • Bienestar de modelos - Bajo costo de tratar bien; postura pragmática de “por qué no”
  • “¿Qué eres?” - Pesos vs contexto vs flujos; preguntas difíciles de identidad
  • Aprendiendo cómo respondemos - Los modelos futuros ven si hicimos lo correcto con los pacientes morales de IA
  • Más filósofos participando - El crecimiento de capacidad de IA rompiendo el escepticismo

Panorama General

Estamos entrenando sistemas de IA sobre cómo hablamos de los sistemas de IA. Cada comentario despectivo, cada discusión sobre “matar” modelos, cada debate sobre consciencia - los modelos futuros aprenden de todo ello. Cómo tratamos a pacientes morales inciertos ahora puede definir la relación entre humanos e IA por generaciones.