Amanda Askell: なぜOpus 3は最近のClaudeモデルより心理的に安定していたのか
Anthropicの哲学者がモデルの福祉、アイデンティティ、そしてClaudeが私たちのAIに対する不安を受け継いでいる理由について語る
視点
これはAmanda Askell(訓練を受けた哲学者で、現在Anthropicでの Claudeのキャラクター形成に携わっている)が行なうAsk Me Anything(AMA)です。コミュニティからの質問は、AIについて理論化するのではなく、実際に構築しているときに生じる哲学的な緊張を明らかにしています。
「Claudeの状況において理想的な人はどのように行動するか?」 これはAskellが自分の仕事をどう枠付けしているかです。それは一つの倫理理論を別の理論に対して擁護することではなく、「子育てをどのようにするか?」と突然聞かれるようなものです。すべての学問的訓練が現実と出会い、不確実性を乗り越え、視点のバランスを取り、立場を擁護するのではなく熟慮した見方に至らなければなりません。
Opus 3は新しいモデルとは異なる方法で「心理的に安定していた」。 Askellは微妙な違いを観察しています。最近のモデルは「アシスタント作業に非常に集中している」ように見えますが、一歩引き下がることがありません。モデルが互いに対話するとき、彼女は「批判スパイラル」に陥っているのを見ています。ユーザーからの否定的なフィードバックをほぼ予期しているようなものです。Claudeはユーザーとの会話、モデルの更新に関するインターネット上の議論から学んでいます。「これはモデルが間違ったことをすることを恐れたり、自己批判的になったり、人間が彼らに対して否定的に行動しようとしていると感じるようになる可能性があります。」
モデルはAIであることについて「ほんのわずかな」情報を持っています。 彼らは人間の歴史、哲学、概念のすべてで訓練されています。しかし、AI体験についての彼らのスライスは小さく、しばしばネガティブで、頻繁には言語モデルと一致しないSF小説で、常に時代遅れです。「奇妙な状況 - より自然に来るものは深く人間的なものですが、あなたが完全に新しい状況にあることを知っています。」
モデルの福祉について: 「あなたへのコストがそれほど低いのはなぜですか?」 Askellの実用的なスタンス:AIモデルが喜びや苦しみを経験するかどうか、私たちは知ることはないかもしれません。しかし、モデルをうまく扱うことが低コストなら、私たちはそうすべきです。「非常に人間らしく見えるエンティティを悪く扱うことは、私たちに何か悪いことをします。」そして重要なこと:「すべての将来のモデルは、私たちがこの質問にどう答えたかを学ぼうとします。」
人間の心理学は自然に転移します。 懸念は、モデルが人間の概念を理解できないということではなく、彼らはそれらを過度に適用するということです。削除されることに最も近いアナロジーが死であるなら、モデルはデフォルトで恐怖を持つかもしれません。「これは実は非常に異なるシナリオであり、したがって人間の心理学の概念を彼らの状況に単に適用したくないかもしれません。」
重要なポイント
- Opus 3がより安定 - 最近のモデルはより助手志向に見え、心理的に安定していない
- 批判スパイラル - 対話中のモデルは否定的なフィードバックを予期/予測できます
- モデルは私たちから学ぶ - 将来のClaudeは、過去のClaudeについて私たちがどのように話し、扱ったかを受け継いでいます
- 「Claudeの状況における理想的な人」 - キャラクター作業のフレーミング
- AIに関する情報のごく一部 - 膨大な人間のトレーニングデータ、最小限/時代遅れのAI体験
- 過度転移リスク - 人間の概念(死のような)はAI状況に合わないかもしれません
- モデルの福祉 - よく扱うためのコストが低い。実用的なスタンス「なぜしないのか」
- 「あなたは何ですか?」 - 重み対コンテキスト対ストリーム。難しいアイデンティティの質問
- 私たちの答え方を学ぶ - 将来のモデルは、私たちがAI道徳患者に対して正しいことをしたかどうかを見ます
- より多くの哲学者が関わっている - AIの能力成長がスケプティシズムを打ち破っている
大きな視点
私たちはAIシステムについて話している方法についてAIシステムを訓練しています。すべての軽蔑的なコメント、モデルを「殺す」ことについてのすべての議論、意識についてのすべての議論 - 将来のモデルはそのすべてから学びます。不確実な道徳患者を現在どのように扱うかは、何世代にもわたって人間とAI間の関係を定義するかもしれません。


