世界模型

wurld MOD-els

architecture advanced

定义

世界模型(World Models) 是学习模拟和预测物理世界如何运作的 AI 系统——包括空间动力学、直觉物理学以及无法仅从文本中学习的因果关系。

为什么重要

当前的语言模型从文本中学习,文本捕获了很多关于世界的信息,但遗漏了具身知识——物体如何下落、力如何相互作用、空间如何运作。世界模型旨在填补这一空白。

关键概念

超越语言

“Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can’t be captured in text.” “语言比我们想象的更丰富,但空间动力学、直觉物理学和感觉运动体验无法在文本中捕获。” — Demis Hassabis

Genie + Simma

Google DeepMind 的方法:将 AI 代理(Simma)投入到 AI 生成的世界(Genie)中,让它们互动,创建无限的训练环境。

“The two AIs are kind of interacting in the minds of each other.” “两个 AI 在彼此的思维中进行某种互动。“

物理准确性

生成的视频可能看起来逼真,但对于机器人来说不够物理准确。真正的世界模型需要正确预测物理结果。

应用

  • 机器人技术:代理需要直觉物理学来导航真实环境
  • 规划:理解因果关系可以实现更好的长期推理
  • 仿真:在现实中部署之前在模拟世界中进行训练

当前限制

  • 视频生成看起来逼真但不遵守物理定律
  • 模型缺乏对空间关系的基础理解
  • 在线学习(部署后继续学习)仍然缺失

相关术语

Mentioned In

Video thumbnail

Demis Hassabis

Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can't be captured in text.

Related Terms