Anthropicの内側:安全性がビジネスモデルになるまで
Anthropicの共同創業者が明かす、安全性重視の文化がいかに競争優位を生み出すか。RSPフレームワークからConstitutional AIまで。
Anthropicの共同創業者がAIの安全性を競争優位に変えた方法
稀なファイアサイドチャットで、Anthropicの共同創業チーム—CEO Dario Amodei、President Daniela Amodei、Chris Olah、Jared Kaplan—が集まり、会社を立ち上げた理由、安全性がいかにすべての決定を推し進めるか、そしてResponsible Scaling Policy (RSP)がいかに彼らの定義する文書となったかについて議論します。
Anthropicが存在しなければならなかった理由について: "We just felt like it was our duty." 共同創業者たちは、OpenAIに留まることがもはや実行可能ではなくなった瞬間を述べています。GPT-2とGPT-3での作業の後、スケーリングの軌跡は明らかになり—同様に安全性を後付けにするのではなくプロセスに組み込むことの緊急性も明らかになりました。
それが機能する文化について: "It's because of low ego." Daniela Amodeiは、会社の異常な結束を、彼らが「道化師を排除する」と呼ぶ意図的な採用哲学に帰しています—技術的に優秀でありながら、本当に協調的な人々を優先します。その結果、安全性チームと製品チームが敵対的ではなく一致している文化が生まれました。
RSPを組織の中核として: "It's like the holy document for Anthropic." Responsible Scaling Policy—AI能力の閾値を測定し安全性要件をトリガーするためのAnthropicのフレームワーク—は、他のいかなる内部文書よりも多くの草稿を経ています。それは明確な責任を生み出します。各能力レベルで、展開前に特定の安全性対策が満たされなければなりません。
Evalがすべてを推し進めることについて: "Evals, evals, evals. Every team produces evals." Jared Kaplanは、評価がいかにすべてのチームのワークフローに組み込まれるようになったかを述べています—安全性チームだけではなく。推論に取り組むエンジニアは安全性について話します。製品チームは計画プロセスに評価を組み込みます。これは別部門の仕事ではなく、会社全体の筋肉です。
解釈可能性を長期戦として: Chris Olahの機械的解釈可能性に関する研究—ニューラルネットワークの内部で実際に何が起こっているかを理解する—はAnthropicの最深の賭けです。モデルをブラックボックスとして扱う代わりに、チームはこれらのシステムが実際にどのように考えるかを明かし始め、安全性と能力の両方に対する影響を持ちます。
Anthropicの共同創業者による安全性重視のAIに関する6つの要点
- 安全性はビジネスモデルであり、制約ではない — 顧客はジェイルブレイクされやすい、または幻覚を見るモデルを望みません。安全性研究は製品品質を直接改善し、競合他社がAnthropicの基準に合わせることを奨励する「競争の上昇」を生み出します。
- RSPは健全なインセンティブを生み出す — 具体的な能力閾値と対応する安全性要件を公開することで、Anthropicは従業員、顧客、規制当局、競合他社に対してコミットメントを明確にします。その他のラボはそれ以降、同様のフレームワークを採用しています。
- Constitutional AIは反復から生まれた — モデルに一連の原則を与え、人間のフィードバックだけに依存しないというアイデアは、広範な起案を経ています。それはコンセンサス構築演習から始まり、Anthropicのコア・アライメント技術の1つになりました。
- 文化はミッションの明確さを通じてスケールする — 数百人の従業員を持つようになっても、共同創業者たちはすべての人が同じミッションを共有しているという事実に統一を帰しています。人々は頻繁に安全性を気にかけているから参加し、それにもかかわらずではなく参加します。
- 解釈可能性はノーベル賞の価値がある可能性がある — Dario Amodeiは公にChris Olahの解釈可能性の研究が将来医学ノーベル賞につながる可能性があると述べ、ニューラルネットワークを理解することが生物学研究のブレークスルーをどのように解放できるかについて類似を引き出しています。
- Claude for workはビジョンである — チームはClaudeがコーディングから研究、生物学まで—安全で信頼でき、信頼できる方法でAIを有用にする専門的なタスクで本当に役に立つツールになることについて興奮を表明しました。
これがAIで構築している組織にとって何を意味するか
Anthropicの共同創業者は、安全性が能力の反対ではなく、それへの道であるという説得力のあるケースを作ります。AIパートナーを評価している組織にとって、レッスンは明確です。自分のモデルがどのように機能するかを理解することに最も深く投資している企業は、最も信頼できる製品を構築している企業でもあります。RSPフレームワークは、組織がどのようにAIガバナンスについて考えることができるかについてのテンプレートを提供します—官僚的なオーバーヘッドとしてではなく、顧客、規制当局、従業員の信頼を構築する競争上の優位性として。


