世界モデル
wurld MOD-els
定義
世界モデルは、物理世界がどのように機能するかをシミュレートし予測することを学習するAIシステムです—テキストだけでは学習できない空間力学、直感的物理、因果関係を含みます。
なぜ重要か
現在の言語モデルはテキストから学習しますが、これは世界について多くを捉えますが、具体化された知識を見逃します—オブジェクトがどのように落ちるか、力がどのように相互作用するか、空間がどのように機能するか。世界モデルはこのギャップを埋めることを目指します。
主要概念
言語を超えて
“Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can’t be captured in text.” — Demis Hassabis
「言語は私たちが思っていたよりも豊かですが、空間力学、直感的物理、感覚運動体験はテキストでは捉えられません。」 — Demis Hassabis
Genie + Simma
Google DeepMindのアプローチ:AIエージェント(Simma)をAI生成世界(Genie)にドロップし、相互作用させ、無限のトレーニング環境を作成します。
“The two AIs are kind of interacting in the minds of each other.”
「2つのAIはお互いの心の中で相互作用しています。」
物理精度
生成された動画はリアルに見えるかもしれませんが、ロボティクスには十分な物理精度がありません。真の世界モデルは物理的結果を正確に予測する必要があります。
応用
- ロボティクス: エージェントは実際の環境をナビゲートするために直感的物理が必要です
- 計画: 因果関係を理解することで、より良い長期推論が可能になります
- シミュレーション: 現実に展開する前にシミュレートされた世界でトレーニング
現在の限界
- 動画生成はリアルに見えますが、物理に従いません
- モデルには空間関係のグラウンデッドな理解が欠けています
- オンライン学習(展開後も学習を続ける)はまだ欠けています
関連用語
- ジャギッドインテリジェンス - 世界モデルが解決するかもしれない問題
- エンボディドAI - 物理世界と相互作用するAIシステム