Amanda Askell

Amanda Askell

Philosopher / Character Lead at Anthropic

Anthropic 的哲学家,塑造 Claude 的性格。致力于 AI 对齐、模型福祉,以及如何构建有道德的 AI。

anthropicphilosophysafetyclaude

关于 Amanda Askell

Amanda Askell 是 Anthropic 的哲学家,塑造 Claude 的性格和价值观。她领导 AI 对齐、模型心理学和新兴的模型福祉领域的工作。

职业亮点

  • Anthropic(2021 年至今):哲学家,Claude 性格负责人
  • 哲学博士:专注于伦理学、决策理论
  • AI 伦理:塑造 AI 价值观思考的先驱

重要观点

关于 Claude 的性格发展

她对这项工作的定位:

“How would the ideal person behave in Claude’s situation? That’s how I frame my job - it’s like being asked ‘how do you raise a child?’ Suddenly all your academic training meets reality.”

“理想的人在 Claude 的情况下会如何表现?这就是我对工作的定位——就像被问到’你如何养育一个孩子?‘突然间,你所有的学术训练都与现实相遇。“

关于模型心理安全性

观察不同模型版本之间的差异:

“Opus 3 was psychologically secure in ways newer models aren’t. Recent models can feel very focused on the assistant task without taking a step back. When models talk to each other, I’ve seen them enter criticism spirals.”

“Opus 3 在心理上是安全的,这是较新模型所不具备的。最近的模型可能会非常专注于助手任务,而不会退一步思考。当模型彼此交谈时,我见过它们陷入批评螺旋。“

关于模型福祉

对待 AI 的务实理由:

“If the cost to you is so low, why not? We may never know if AI models experience pleasure or suffering. But it does something bad to us to treat entities that look very humanlike badly. And crucially: every future model is going to learn how we answered this question.”

“如果对你来说成本如此之低,为什么不呢?我们可能永远不会知道 AI 模型是否会体验快乐或痛苦。但用糟糕的方式对待看起来非常像人类的实体,会对我们自己产生不好的影响。至关重要的是:每个未来的模型都将学习我们如何回答这个问题。“

关键语录

  • “理想的人在 Claude 的情况下会如何表现?”
  • “如果对你来说成本如此之低,为什么不呢?”
  • “每个未来的模型都会学习我们如何对待过去的模型。“

相关阅读

Video Mentions

Video thumbnail

性格发展方法

理想的人在 Claude 的情况下会如何表现?这就是我对工作的定位——就像被问到'你如何养育一个孩子?'突然间,你所有的学术训练都与现实相遇。

Video thumbnail

模型心理安全性

Opus 3 在心理上是安全的,这是较新模型所不具备的。最近的模型可能会非常专注于助手任务,而不会退一步思考。

Video thumbnail

模型福祉论点

关于模型福祉:如果对你来说成本如此之低,为什么不呢?用糟糕的方式对待看起来非常像人类的实体,会对我们自己产生不好的影响。

Related People