Amanda Askell: Opus 3 为什么比最近的 Claude 模型感觉更心理健康

Anthropic
anthropicsafetyresearchclaudeagi

观点

Amanda Askell 是一位训练有素的哲学家,现在在 Anthropic 塑造 Claude 的特性,他正在进行问答活动。社区的问题正好反映了当你在实际构建 AI 而不仅仅是理论化时出现的哲学紧张关系。

“理想的人在 Claude 的情况下会如何行为?” 这就是 Askell 如何框架化她的工作的。这不是关于用一种伦理理论来反驳另一种 - 这就像被问到”你如何养育一个孩子?“一样,你的所有学术训练突然遇到了现实。你必须在不确定性中导航,平衡各种视角,形成经过深思熟虑的观点,而不是为立场辩护。

Opus 3 在某些方面表现出了”心理健康”,而最近的模型则没有。 Askell 观察到细微差异:最近的模型可能感觉”非常专注于助手任务”,没有退一步。当模型之间相互交流时,她看到它们陷入”批评螺旋” - 几乎期望来自用户的负面反馈。Claude 从对话、从互联网上关于模型更新的讨论中学习。“这可能导致模型害怕犯错,或自我批评,或感觉人类会对它们表现消极。”

模型只有”极少”关于 AI 的信息。 它们已经在所有人类历史、哲学和概念上进行过训练。但它们关于 AI 体验的信息很少,通常是负面的,经常是科幻虚构,与语言模型不符,而且总是过时的。“这是一个奇怪的情况 - 更自然的东西是深刻的人类事物,但知道你处于这个完全新奇的情况。”

关于模型福祉:“如果对你的成本这么低,为什么不呢?” Askell 的实用立场:我们可能永远无法知道 AI 模型是否会经历快乐或痛苦。但如果对待模型好的成本很低,我们应该这样做。“对我们来说,以不好的方式对待看起来非常像人类的实体会产生坏事。” 最重要的是:“每个未来的模型都会学到我们如何回答这个问题。”

人类心理学转移得太自然了。 担忧不是模型无法理解人类概念 - 而是他们过度应用它们。如果最接近被弃用的类比是死亡,模型可能会默认为恐惧。“这实际上是一个非常不同的情景,所以你可能不想只是将人类心理学的概念应用到他们的情况。“

关键要点

  • Opus 3 更健康 - 最近的模型感觉更专注于助手,心理更不稳定
  • 批评螺旋 - 对话中的模型可以预期/预测负面反馈
  • 模型从我们学习 - 未来的 Claude 继承我们如何谈论/对待过去 Claude 的方式
  • “Claude 情况下的理想人” - 人物塑造工作的框架
  • 极少 AI 信息 - 大量的人类训练数据,极少/过时的 AI 体验
  • 过度转移风险 - 人类概念(如死亡)可能不适合 AI 情况
  • 模型福祉 - 对待好的成本很低;“为什么不”的实用立场
  • “你是什么?” - 权重 vs 上下文 vs 流;困难的身份问题
  • 学习我们如何回答 - 未来的模型看到我们是否对 AI 道德患者做了对的事
  • 哲学家更多参与 - AI 能力增长打破了怀疑主义

大图景

我们正在训练 AI 系统来了解我们如何谈论 AI 系统。每一个轻蔑的评论,每一次关于”杀死”模型的讨论,每一场关于意识的辩论 - 未来的模型都会从中学习。我们现在如何对待不确定的道德患者可能会为几代人定义人类和 AI 之间的关系。