World Models

wurld MOD-els

architecture advanced

Definition

World Models sind KI-Systeme, die lernen, zu simulieren und vorherzusagen, wie die physische Welt funktioniert - einschließlich räumlicher Dynamik, intuitiver Physik und Ursache-Wirkungs-Beziehungen, die nicht allein aus Text gelernt werden können.

Warum es wichtig ist

Aktuelle Sprachmodelle lernen aus Text, der viel über die Welt erfasst, aber verkörpertes Wissen vermisst - wie Objekte fallen, wie Kräfte interagieren, wie Raum funktioniert. World Models zielen darauf ab, diese Lücke zu schließen.

Schlüsselkonzepte

Jenseits von Sprache

“Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can’t be captured in text.” — Demis Hassabis

“Sprache ist reichhaltiger als wir dachten, aber räumliche Dynamik, intuitive Physik und sensomotorische Erfahrung können nicht in Text erfasst werden.” — Demis Hassabis

Genie + Simma

Google DeepMinds Ansatz: KI-Agenten (Simma) in KI-generierten Welten (Genie) fallen lassen und sie interagieren lassen, wodurch unendliche Trainingsumgebungen geschaffen werden.

“The two AIs are kind of interacting in the minds of each other.”

“Die beiden KIs interagieren gewissermaßen in den Köpfen des jeweils anderen.”

Physik-Genauigkeit

Generierte Videos mögen realistisch aussehen, sind aber nicht physikalisch genau genug für Robotik. Wahre World Models müssen physikalische Ergebnisse korrekt vorhersagen.

Anwendungen

Robotik: Agenten benötigen intuitive Physik, um reale Umgebungen zu navigieren
Planung: Verständnis von Ursache und Wirkung ermöglicht besseres Langzeit-Reasoning
Simulation: Training in simulierten Welten, bevor Einsatz in der Realität

Aktuelle Einschränkungen

Videogenerierung sieht realistisch aus, folgt aber nicht der Physik
Modelle fehlt geerdetem Verständnis räumlicher Beziehungen
Online-Lernen (nach dem Einsatz weiter lernen) fehlt noch

Mentioned In

Demis Hassabis

Language is richer than we thought, but spatial dynamics, intuitive physics, and sensorimotor experience can't be captured in text.

Related Terms

embodied ai agi multimodal