Modelos del Mundo

wurld MOD-els

architecture advanced

Definición

Los modelos del mundo son sistemas de IA que aprenden a simular y predecir cómo funciona el mundo físico - incluyendo dinámicas espaciales, física intuitiva y relaciones causa-efecto que no pueden aprenderse solo del texto.

Por Qué Importa

Los modelos de lenguaje actuales aprenden del texto, que captura mucho sobre el mundo pero pierde conocimiento encarnado - cómo caen los objetos, cómo interactúan las fuerzas, cómo funciona el espacio. Los modelos del mundo pretenden llenar esta brecha.

Conceptos Clave

Más Allá del Lenguaje

“Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can’t be captured in text.” “El lenguaje es más rico de lo que pensábamos, pero las dinámicas espaciales, la física intuitiva y la experiencia sensoriomotora no pueden capturarse en texto.” — Demis Hassabis

Genie + Simma

El enfoque de Google DeepMind: dejar caer agentes de IA (Simma) en mundos generados por IA (Genie) y dejarlos interactuar, creando entornos de entrenamiento infinitos.

“The two AIs are kind of interacting in the minds of each other.” “Las dos IAs están como interactuando en las mentes de cada una.”

Precisión Física

Los videos generados pueden verse realistas pero no son físicamente precisos para robótica. Los verdaderos modelos del mundo necesitan predecir resultados físicos correctamente.

Aplicaciones

  • Robótica: Los agentes necesitan física intuitiva para navegar entornos reales
  • Planificación: Entender causa y efecto permite mejor razonamiento a largo plazo
  • Simulación: Entrenar en mundos simulados antes de desplegar en realidad

Limitaciones Actuales

  • La generación de video se ve realista pero no obedece la física
  • Los modelos carecen de comprensión fundamentada de relaciones espaciales
  • El aprendizaje en línea (continuar aprendiendo después del despliegue) aún falta

Términos Relacionados

Mentioned In

Video thumbnail

Demis Hassabis

Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can't be captured in text.

Related Terms