Yann LeCun氏が語るAMI、ワールドモデル、そしてなぜLLMだけでは不十分なのか
ディープラーニングの父の一人が、業界の他の企業とは異なる道に次の10年をかけようとしています。
視点
Yann LeCun氏との対話は、数十年の技術的直観に支えられた逆張り思考のマスタークラスです。業界がLLMのスケーリングに数十億ドルを投じている一方、LeCun氏はAMI(Advanced Machine Intelligence)を完全に異なるテーゼで立ち上げています。テキストだけでは人間レベルのAIに到達することはできないというものです。
数学は厳密です。競争力のあるLLMを訓練するには30兆トークンが必要です—大体10^14バイトのテキストデータです。これは実質的にインターネット上で自由に利用できるすべてのテキストです。これを動画と比較してみましょう。同じ10^14バイトは、2MB/sでわずか15,000時間の動画を表しています。これはYouTubeアップロードの30分相当です。これは4歳の子どもが人生を通じて見たもの全体です。
LeCun氏の主張はデータ効率だけに関するものではなく、情報密度と冗長性についてのものです。LLMは、テキストから孤立した事実を本質的に暗記しているため、大規模なパラメータ数が必要です。動画で訓練されたワールドモデルは、物理学、因果関係、ダイナミクスの抽象的表現を学びます。視覚データの冗長性はバグではなく、学習を可能にするものです。
この対話が特に価値あるものにしているのは、歴史的な円弧です。LeCun氏は、スパースオートエンコーダーからシャムネットワークへ、対照学習へ、JEPAへと至る20年の旅を歩んでいきます。各反復は特定の問題を解決していました。システムを訓練して、自明な解決策に陥らずに有用な抽象表現を学習するにはどうすればよいか?
彼が収束した答え:結合埋め込み予測アーキテクチャ(JEPA)。すべてのピクセルを予測する代わりに(非決定論的な将来に対しては不可能)、抽象的表現空間で予測します。予測不可能な詳細—ノイズ、無関係なテクスチャ、量子的不確実性—をすべて排除し、計画に必要なものに焦点を当てます。
AMIのタイミングは意図的です。Meta、Google、その他の大規模なラボが「貝のように閉じ込もり」、より秘密保護的になっている一方で、LeCun氏はオープン研究に倍増投資しています。彼の主張は実際的です。出版しなければ研究とは呼べないなぜなら、内部のハイプで自分自身を騙すだけになるからです。科学者は外部検証が必要であり、ブレークスルーには出版の自由が必要です。
製品戦略は野心的ですが現実的です。AMIはアップストリーム研究を出版しながら、ワールドモデルと計画システムの周りに実製品を構築します。LLMに基づくエージェントシステムは「本当にあまり機能しない」という賭けは、抽象表現空間での結果を予測し計画する能力に欠けているからです。
対話に埋もれている1つの技術的詳細は特に顕著です。現在の対照的手法(LeCun氏が2005~2006年に開拓したもの)は、ImageNetでも学習表現で約200次元で最大値に達します。それが上限です。Barlow Twins、VICReg、SigReg(LJEPAシステムの一部)のような最近の進歩は、対照的損失を使うだけでなく情報内容を最大化することで、その限界を超えています。
CFDアナロジーは完璧です。飛行機の周りの気流を、個々の分子をモデル化することで、ましてや量子場によってシミュレートしません。正しい粒度レベルでの抽象表現を使用します。それがワールドモデルがする必要があることです—すべての詳細をシミュレートするのではなく、計画に適切な抽象化を学ぶことです。
重要なポイント
- AMIのテーゼ:人間レベルのAIには、テキストだけでなく高次元連続データ(動画)で訓練されたワールドモデルが必要です
- データ効率ギャップ:10^14バイトはインターネットテキスト上のLLMを訓練するか、または15,000時間のビデオ(YouTubeの30分)上のビジョンモデルを訓練します
- JEPAアーキテクチャ:ピクセル空間ではなく抽象表現空間で予測—予測不可能な詳細を排除しながら構造を保持します
- 研究戦略:AMIは「出版しなければ研究とは呼べない」ため、オープンに出版します—内部のハイプは幻想を生み出します
- 技術的進化:対照学習(2005年)からVICReg/SigReg(2024年)へ—200次元の上限を超えて移行しています
- 計画要件:知能はパターンマッチングではなく、結果予測+最適化が必要です
- 業界批評:オープン研究の歴史的利益にもかかわらず、大規模ラボ(Google、Meta、OpenAI)がより閉鎖的になっています
- 製品ビジョン:計画システムのためのワールドモデルは、信頼性とサンプル効率の点でLLMベースのエージェントを上回ります
大局的視点
チューリング賞受賞者が、テキスト専用AIは人間レベルの知能に到達することはできないというテーゼに次の10年を賭けています。もし彼が正しければ、業界の兆ドルのLLM投資は心ではなくツールを構築しており、AGIへの真の道はビデオ、ワールドモデル、学習された物理学を通じて実行されます。