深入 Anthropic：安全如何成为商业模式

2024-12-20 Anthropic

safetyenterpriseinterviewclaude

Anthropic 联合创始人如何将 AI 安全转化为竞争优势

在一场难得的炉边谈话中，Anthropic 的联合创始团队——CEO Dario Amodei、总裁 Daniela Amodei、Chris Olah 和 Jared Kaplan——坐下来讨论他们为何创立公司、安全如何驱动每一项决策，以及为何《负责任扩展政策》(RSP) 已成为他们的定义性文件。

关于为何 Anthropic 必须存在： “我们只是觉得这是我们的责任。” 联合创始人描述了在 OpenAI 时继续工作变得不可行的那一刻。在致力于 GPT-2 和 GPT-3 之后，扩展的轨迹变得清晰——安全的紧迫性也变得清晰，需要在这个过程中建立安全，而不是稍后再添加。

关于使其发挥作用的文化： “这是因为低自我。” Daniela Amodei 将公司的不寻常凝聚力归功于他们所谓的一项深思熟虑的招聘理念”赶走小丑”——优先考虑既具有技术天才又真正具有协作精神的人。结果是一种安全团队和产品团队不对立而是一致的文化。

关于作为组织支柱的 RSP： “这就像 Anthropic 的圣经文件。” 《负责任扩展政策》——Anthropic 用于衡量 AI 能力阈值和触发安全要求的框架——经历了比任何其他内部文件更多的草稿。它创造了明确的问责制：在每个能力水平上，必须在部署前满足具体的安全措施。

关于评估推动一切： “评估，评估，评估。每个团队都生产评估。” Jared Kaplan 描述了评估如何融入每个团队的工作流程——而不仅仅是安全团队。致力于推理的工程师谈论安全。产品团队将评估纳入他们的规划过程。这不是一个单独部门的工作；这是一家公司范围内的能力。

关于作为长期游戏的可解释性： Chris Olah 在机制可解释性上的工作——理解神经网络内部实际发生的情况——代表了 Anthropic 最深层的赌注。该团队没有将模型视为黑箱，而是开始破译这些系统实际上是如何思考的，这对安全性和能力都有影响。

Anthropic 联合创始人关于安全优先 AI 的 6 个要点

安全是商业模式，而非约束 —— 客户不想要容易被越狱或产生幻觉的模型。安全研究直接改进产品质量，创造了一场”向上的竞争”，其中竞争对手有动力与 Anthropic 的标准相匹配。
RSP 创造健康的激励 —— 通过发布具体的能力阈值和相应的安全要求，Anthropic 使其承诺对员工、客户、监管机构和竞争对手都清晰可见。其他实验室随后采用了类似的框架。
Constitutional AI 源于迭代 —— 给模型一套原则而不是仅依赖人类反馈的想法经历了广泛的草稿。它始于一个共识建立的练习，并成为了 Anthropic 的核心对齐技术之一。
文化通过使命清晰来扩展 —— 拥有数百名员工，联合创始人将团结归功于这样的事实：每个人都共享相同的使命。人们经常加入是因为他们关心安全，而不是尽管有安全。
可解释性可能值得诺贝尔奖 —— Dario Amodei 公开表示 Chris Olah 的可解释性工作可能导致未来医学诺贝尔奖，这与理解神经网络如何解锁生物学研究突破的方式相平行。
工作中的 Claude 是愿景 —— 该团队表达了对 Claude 成为一个能够真正帮助专业任务的工具的兴奋——从编码到研究再到生物学——使 AI 以安全、可靠和值得信赖的方式发挥作用。

这对使用 AI 构建的组织意味着什么

Anthropic 的联合创始人做出了令人信服的论证，即安全不是能力的对立面——它是通往它的道路。对于评估 AI 合作伙伴的组织来说，教训很清楚：在理解其模型工作方式上投入最深的公司也是构建最可靠产品的公司。RSP 框架为任何组织如何考虑 AI 治理提供了一个模板——不是作为官僚开销，而是作为与客户、监管机构和员工建立信任的竞争优势。