世界モデル

wurld MOD-els

architecture advanced

定義

世界モデルは、物理世界がどのように機能するかをシミュレートし予測することを学習するAIシステムです—テキストだけでは学習できない空間力学、直感的物理、因果関係を含みます。

なぜ重要か

現在の言語モデルはテキストから学習しますが、これは世界について多くを捉えますが、具体化された知識を見逃します—オブジェクトがどのように落ちるか、力がどのように相互作用するか、空間がどのように機能するか。世界モデルはこのギャップを埋めることを目指します。

主要概念

言語を超えて

“Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can’t be captured in text.” — Demis Hassabis

「言語は私たちが思っていたよりも豊かですが、空間力学、直感的物理、感覚運動体験はテキストでは捉えられません。」 — Demis Hassabis

Genie + Simma

Google DeepMindのアプローチ:AIエージェント(Simma)をAI生成世界(Genie)にドロップし、相互作用させ、無限のトレーニング環境を作成します。

“The two AIs are kind of interacting in the minds of each other.”

「2つのAIはお互いの心の中で相互作用しています。」

物理精度

生成された動画はリアルに見えるかもしれませんが、ロボティクスには十分な物理精度がありません。真の世界モデルは物理的結果を正確に予測する必要があります。

応用

  • ロボティクス: エージェントは実際の環境をナビゲートするために直感的物理が必要です
  • 計画: 因果関係を理解することで、より良い長期推論が可能になります
  • シミュレーション: 現実に展開する前にシミュレートされた世界でトレーニング

現在の限界

  • 動画生成はリアルに見えますが、物理に従いません
  • モデルには空間関係のグラウンデッドな理解が欠けています
  • オンライン学習(展開後も学習を続ける)はまだ欠けています

関連用語

Mentioned In

Video thumbnail

Demis Hassabis

Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can't be captured in text.

Related Terms