LLMは理解しているのか?Yann LeCun vs DeepMindのAdam Brown
世界を代表するAI研究者2人が、AI業界で最も議論の多い問題について率直に議論する場に集まった。これらのシステムは本当に何かを理解しているのか?
視点
この討論は、現在のAI研究を貫く根本的な哲学的・技術的な分裂を明確にしている。一方のDeepMindのAdam Brownは、LLMは完璧ではないが、本当に理解していると主張している。一方、Yann LeCunは、物理的現実に根ざしていないため、その理解は「表面的」だと主張している。彼らの立場の微妙な違いは、どちらかの極端な主張よりもはるかに多くのことを明らかにしている。
最も示唆に富んだ瞬間は、司会者が二項択一の質問をする最初の段階で生じる。「LLMは理解しているか?」Brownは「はい」と答える。LeCunは「ある程度」と答える。このように二項択一の立場の間のグラデーションこそが、真実が存在する場所である。
LeCunの中心的な議論は情報理論とサンプル効率に基づいている。彼は、競争力のあるLLMの訓練には30兆トークンが必要であり、これはおよそ10^14バイトのテキストデータであり、インターネット上の自由に利用可能なすべてのテキストを実質的に表していると指摘している。これは人間の読書時間にして50万年分に相当する。これを視覚データと比較すると、同じ10^14バイトは、わずか16,000時間のビデオのみを表す。これは正確には、4歳の子どもが人生全体で目にしたもの(光学神経を通じて1秒あたり2MBで計算)である。
これはただのデータ量の問題ではない。情報密度と根拠付けの問題である。物理学を学ぶ子どもは、落下する物体の説明を百万回も読む必要はない。物が落ちるのを見て、自分で物を落とし、継続的で高次元の感覚体験を通じて、重力、慣性、因果関係の直感的なモデルを構築する。LLMは言語だけを持っている。言語は現実の象徴的な圧縮であり、現実そのものではない。
Brownはそれに対して重要な洞察で反論する。サンプル効率がすべてではない。猫が歩くことを学ぶのに1週間かかり、人間には1年かかる。だからといって、猫が人間やLLMより賢いわけではない。重要なのは学習速度ではなく、最終的な能力である。そして、重要なほぼすべての指標において、つまり蓄積された知識、問題解決の範囲、言語の洗練さにおいて、LLMはすでに猫の知能を超えており、特定のタスクでは人間の性能をはるかに超えている。
彼の証拠は説得力がある。2025年の国際数学オリンピックでは、Googleのシステムは地球上で最高レベルのわずか数十人の人間を除く全員より高いスコアを獲得した。これらは訓練データに対するパターンマッチングではない、完全に新しい問題である。このシステムは、今まで見たことのない方法で異なる数学的概念を組み合わせた。これはメモ化ではなく、抽象化の高いレベルでの本当の推論である。
解釈可能性の議論は特に興味深い。Brownは、実はLLMニューロンへのアクセスは人間のニューロンへのアクセスより優れていると指摘している。それらを凍結し、リプレイし、つついて、何が起こっているかを正確に追跡できる。LLMに数学問題を与えると、機械解釈可能性研究は、それを解く実際の計算回路が形成されることを明らかにしている。これは訓練中にモデルが自分で構築することを学んだ回路であり、次のトークンを予測するために訓練されている。数学の答えをメモ化していない。数学をする方法を学んだ。
LeCunはこれを否定しない。彼の批評はより微妙である。彼は、LLMが確かに知識を蓄積し、言語タスクで超人的な成果を達成できることに「はい」と言っている。しかし、彼らは根本的に、具体的な学習から生じる根ざされた物理的理解に欠けている。彼らは人間が理解する意味での常識を持っていない。物体がどのように相互作用するかについての直感的な物理学、行動がどのように結果をもたらすか、言語的説明を超えて世界がどのように実際に機能するかについての直感的な物理学である。
チェスの類似は双方向に機能する。Brownは、AlphaZeroが超人的なパフォーマンスに到達するために、任意の人間のグランドマスターよりもはるかに多くのゲームをプレイする必要があったが、サンプル効率は重要ではなく、それは勝った、と言うのは正しい。LeCunは、これが、人間の学習効率と比較して、コンピューターが「チェスで下手」であることを証明し、その差は私たちが一般知能について話すときに重要であると言うのは正しい。
本当の不一致は現在のLLM能力についてではない。それは人間レベルまたは動物レベルの一般知能に到達するために何が必要かについてである。LeCunの立場:テキストだけでそこに到達することはできない。ビデオなどの継続的で高次元のデータで訓練されたワールドモデルが必要である。次のトークンを予測するだけでなく、抽象的な表現空間で結果を予測できるシステムが必要である。
彼の証拠は極めて明白である。弁護士試験に合格し、大学レベルの微積分を解くLLMがあるのに、台所を掃除することを学ぶことができる家庭用ロボットや、十代の若者のように20時間で運転することを学ぶ自動運転車はまだない。テキストで機能する方法は、具体化された知能にはスケーリングしない。
Brownの立場は、現在の軌道についてより楽観的である。LLMはすでに明示的にプログラムされていない創発的能力を実証している。数学的推論、創造的問題解決、洗練された会話理解。計算、データ、アーキテクチャの革新をスケーリングすると、これらの能力は継続的に拡大するだろう。
意識の問題は示唆に富んでいる。両者ともいいえ(または「おそらくいいえ」)と答える。LeCunは絶対的である。「絶対にいいえ」Brownは控えめである。「おそらくいいえ、適切な意識の定義に対して」両者は、私たちが滅亡の崖の端にいるとは信じていない。両者とも「ルネッサンス」がロボットの覇者よりも可能性が高いと言う。
この討論が非常に価値のある理由は、両方の研究者が深く技術的で、深く情報を得ており、理解が「何を要求するかについて根本的に意見が異なるためである」。LeCunの背景にあるコンピュータビジョン、畳み込みネットワーク、そして現在のワールドモデルは、知能が根ざされた具体化された学習を必要とするという彼の信念を形作っている。DeepMindでAlphaGoと現在のGeminiのようなシステムに関する彼の研究は、パターンマッチングを前例のないレベルまでスケーリングするときに何が可能かを示している。
LeCunの議論の通底音:「機械学習は吸う」という彼の有名なスライドから、ワールドモデルに焦点を当てた彼の新しいスタートアップAMIまで、深層学習とバックプロパゲーションは素晴らしいが、根本的に異なる訓練パラダイムとそれらを組み合わせる必要があるというもの。テキストの次トークン予測ではなく、ビデオおよび他の高帯域幅感覚データで訓練された結合埋め込み予測アーキテクチャ(JEPA)。
問題はバイナリではない。LLMは理解している。パターンを抽出し、内部表現を構築し、推論を実行する。しかし、それらの理解は、訓練信号の貧困によって制約されている。言語は人類の圧縮された現実の象徴的表現である。それは損失のある圧縮である。それから多くのものを回復することができる。ほとんどの人が期待していたよりも多い。しかし、すべてを回復することはできない。
主要なポイント
- 根本的な分裂:Brownは、LLMが抽象化の高いレベルでのパターンマッチングを通じて本当に理解していると主張している。LeCunは、物理的根拠付けなしに、その理解は表面的だと主張している
- 情報密度ギャップ:10^14バイトは、インターネット上のすべてのテキストでLLMを訓練するか、4歳児が見たもの(2MB/秒の光学神経を通じた16,000時間の視覚データ)でビジョンモデルを訓練する
- サンプル効率対最終的能力:猫が歩くことを学ぶのは人間より速いが、これは彼らが賢いことを意味しない。重要なのは最終的なパフォーマンスである
- 数学的推論:2025年IMOの結果は、LLMが訓練データのパターンマッチングではなく、概念を組み合わせることで、トップダース人間レベルで新しい問題を解いていることを示している
- 解釈可能性の利点:人間のニューロンより優れたLLMニューロンへのアクセスがある。凍結、リプレイ、追跡が可能で、問題解決中に形成される計算回路を追跡できる
- 根拠付けの問題:LLMは弁護士試験に合格するが、台所の家事を学ぶロボットや、十代の若者のように20時間で学ぶ自動運転車はまだない
- チェスの類似:AlphaZeroは、超人的なパフォーマンスに到達するために、人間のグランドマスターより多くのゲームをプレイする必要があった。これは「サンプル非効率」と「最終的な優位性」の両方を証明している
- 意識の合意:理解の議論にもかかわらず、両研究者はLLMは意識的ではない(または「おそらくそうではない」)ことに同意している
- 今後の見通し:両者は「滅亡」ではなく「ルネッサンス」を予測している。どちらもロボットの覇者を恐れておらず、両者は変革的で前向きな可能性を見ている
- LeCunの前進の道:JEPA アーキテクチャを使用してビデオなどの高次元継続的データで訓練されたワールドモデル、テキストベースの次トークン予測だけではなく
- 機械解釈可能性:LLMは、次のトークンを予測するためだけに訓練されている間に、数学の問題を解くための内部計算回路を自発的に開発する
- バイナリトラップ:「彼らは理解しているのか」という質問は、グラデーション答えを要求している。LeCunの「ある程度」は「はい」または「いいえ」より正確である
全体像
LLMは理解しているか?「ある程度」が誠実な答えである。彼らはパターンを抽出し、抽象化の高いレベルで推論を実行するが、彼らの理解は言語の訓練によって制約されている。言語は人類の現実の損失のある圧縮である。テキストから多くのものを回復することができるが、物理的直感は回復できない。だから、弁護士試験に合格するモデルはあっても、台所を掃除するロボットはない。