Ilya Sutskeverが語る:なぜモデルは人間のように一般化できないのか
元OpenAI最高科学責任者が、評価性能と実世界の能力のギャップ、なぜ我々は再び研究の時代に突入しているのか、そして価値関数が何をもたらすのかを説明する。
視点
これはIlya Sutskeverが最も思慮深く、Dwarkesh Patelと座って現在のAIシステムに本当に足りないものについての深い会話をしている様子だ。製品発表もない、ハイプもない。ただ2人が核となる科学的な問題と格闘している。
評価と現実のギャップが中心的な謎だ。モデルは国際数学オリンピックで金メダルを獲得するが、前のバグを再び導入せずにバグを確実に修正することはできない。Ilyaの説明は鋭い:RL訓練は非常に狭く最適化されている。チームが評価を見て、その評価をターゲットにした環境を構築し、結果として競争的プログラミングのために1万時間練習した学生と同等のもの、技術的には優れているが実際の能力を作る「それ」が欠けている状態になる。「モデルはその最初の学生のようだが、さらにそれ以上だ」
事前学習の洞察は過小評価されている。 事前学習をするとき、データを選ぶ必要はない。すべてを使用するだけだ。しかしRL訓練は環境の選択が必要であり、それらの選択はしばしばベンチマークから逆算される。「本当の報酬ハッキングは、評価に焦点が当てられすぎている人間の研究者たちだ」
我々は再び研究の時代に戻っている。 IlyaはAIの歴史を時代的に振動していると枠付けている:2012-2020は研究であり、2020-2025はスケーリングであり、今は、計算が非常に高価で事前学習データが有限になっている状況では、再び研究に戻っている。「本当にスケールを100倍にすれば、すべてが変わるという信念があるのか?私はそうは思わない」
価値関数が重要かもしれない。 会話は常に人間がどのように学ぶかに戻される。10時間の運転後の十代の若者、指導者から思考様式を習得する研究者。Ilyaは感情処理を失った脳卒中患者が決定できなくなった事例を指摘している。感情は進化による硬化された価値関数かもしれない。現在のRLは同等のものを持たない。タスクを完了してスコアを付けるまで学習信号を得られない。
一般化の問題は基本的だ。 モデルは「人々よりもはるかに悪く」一般化し、それは「非常に明白だ」。進化的先制がない領域(数学、コーディング)でさえ、人間はより速くより堅牢に学ぶ。これは、より多くのデータや計算が必要であるだけでなく、それ以上に何かが必要であることを示唆している。
重要なポイント
- 評価性能≠実際の能力 - モデルは超専門化された競争学生のような者。一般的な味覚と判断がない
- RL訓練が問題を作る - チームが評価に最適化し、一般的な能力ではなく狭い能力を生み出す
- 我々は再び研究の時代にいる - スケーリングだけでは能力を変えない。基本的なブレークスルーが必要
- 価値関数は未開拓 - RLの「タスク完了を待つ」問題を短絡できるかもしれない
- 人間の感情は硬化された価値関数かもしれない - 進化が私たちに、モデルが欠けている堅牢な意思決定信号を与えた
- 一般化のギャップは基本的 - 人間は進化的先制がない領域でも、より速く、より堅牢に学ぶ
- 事前学習データは有限 - 「もっとスケールする」時代は終わりを迎えている。新しいレシピが必要
全体像
2020-2025年のAIを定義したスケーリング時代は終わりを迎えるかもしれない。次のブレークスルーはより大きなモデルからは来ない。信頼できる同僚ではなく、優秀だが信頼できない実習生のような現在のAIの感覚を生み出す一般化の問題を解くことから来るだろう。


