世界モデル

wurld MOD-els

architecture advanced

定義

世界モデルは、物理世界がどのように機能するかをシミュレートし予測することを学習するAIシステムです—テキストだけでは学習できない空間力学、直感的物理、因果関係を含みます。

なぜ重要か

現在の言語モデルはテキストから学習しますが、これは世界について多くを捉えますが、具体化された知識を見逃します—オブジェクトがどのように落ちるか、力がどのように相互作用するか、空間がどのように機能するか。世界モデルはこのギャップを埋めることを目指します。

主要概念

言語を超えて

“Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can’t be captured in text.” — Demis Hassabis

「言語は私たちが思っていたよりも豊かですが、空間力学、直感的物理、感覚運動体験はテキストでは捉えられません。」 — Demis Hassabis

Genie + Simma

Google DeepMindのアプローチ:AIエージェント(Simma)をAI生成世界(Genie)にドロップし、相互作用させ、無限のトレーニング環境を作成します。

“The two AIs are kind of interacting in the minds of each other.”

「2つのAIはお互いの心の中で相互作用しています。」

物理精度

生成された動画はリアルに見えるかもしれませんが、ロボティクスには十分な物理精度がありません。真の世界モデルは物理的結果を正確に予測する必要があります。

応用

ロボティクス: エージェントは実際の環境をナビゲートするために直感的物理が必要です
計画: 因果関係を理解することで、より良い長期推論が可能になります
シミュレーション: 現実に展開する前にシミュレートされた世界でトレーニング

現在の限界

動画生成はリアルに見えますが、物理に従いません
モデルには空間関係のグラウンデッドな理解が欠けています
オンライン学習(展開後も学習を続ける)はまだ欠けています

Mentioned In

Demis Hassabis

Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can't be captured in text.

Related Terms

embodied ai agi multimodal