Yann LeCun über AMI, World Models und warum LLMs nicht ausreichen
Einer der Paten des Deep Learning setzt die nächste Dekade auf einen anderen Weg als der Rest der Industrie.
Perspektive
Dieses Gespräch mit Yann LeCun ist eine Meisterklasse in kontroversem Denken, gestützt durch Jahrzehnte technischer Intuition. Während die Industrie Milliarden in die Skalierung von LLMs steckt, startet LeCun AMI (Advanced Machine Intelligence) mit einer radikal anderen These: man kann nicht zu einer menschenähnlichen KI allein durch Text gelangen.
Die Mathematik ist eindeutig. Das Trainieren eines wettbewerbsfähigen LLM erfordert 30 Billionen Token - ungefähr 10^14 Bytes an Textdaten. Das ist praktisch der gesamte frei verfügbare Text im Internet. Vergleichen Sie das mit Video: diese selben 10^14 Bytes entsprechen nur 15.000 Stunden Video bei 2 MB/s. Das sind 30 Minuten YouTube-Uploads. Das ist das, was ein 4-jähriges Kind in seinem gesamten wachen Leben gesehen hat.
LeCuns Argument geht nicht nur um Dateneffizienz - es geht um Informationsdichte und Redundanz. LLMs benötigen massive Parameteranzahlen, weil sie im Grunde isolierte Fakten aus Text auswendig lernen. World Models, die auf Video trainiert werden, erlernen abstrakte Darstellungen von Physik, Kausalität und Dynamik. Die Redundanz in visuellen Daten ist kein Bug - sie ermöglicht das Lernen.
Was dieses Gespräch besonders wertvoll macht, ist der historische Bogen. LeCun führt durch seine 20-jährige Reise von Sparse Autoencodern zu Siamese Networks zu Contrastive Learning zu JEPA. Jede Iteration löste ein spezifisches Problem: Wie trainiert man ein System, um nützliche abstrakte Darstellungen zu lernen, ohne in triviale Lösungen zu kollabieren?
Die Antwort, auf die er konvergiert ist: Joint Embedding Predictive Architectures (JEPA). Statt jeden Pixel vorherzusagen (was für nicht-deterministische Zukunftsszenarien unmöglich ist), sagen Sie in einem abstrakten Darstellungsraum voraus. Sie eliminieren alle unvorhersehbaren Details - Rauschen, irrelevante Texturen, Quantenunsicherheit - und konzentrieren sich auf das, was für die Planung wichtig ist.
Das Timing von AMI ist bewusst gewählt. Während Meta, Google und andere große Labore “dicht machen” und geheimer werden, verstärkt LeCun seine offene Forschung. Sein Argument ist praktisch: Man kann es nicht Forschung nennen, wenn man nicht veröffentlicht, denn sonst betrügt man sich nur selbst mit interner Hype. Wissenschaftler brauchen externe Validierung, und Durchbrüche erfordern die Freiheit zu veröffentlichen.
Die Produktstrategie ist ehrgeizig, aber pragmatisch. AMI wird Upstream-Forschung veröffentlichen, während es tatsächliche Produkte rund um World Models und Planungssysteme entwickelt. Die Wette ist, dass agentenbasierte Systeme basierend auf LLMs “wirklich nicht sehr gut funktionieren”, weil ihnen die Fähigkeit fehlt, Konsequenzen vorherzusagen und in abstrakten Darstellungsräumen zu planen.
Ein technisches Detail, das im Gespräch versteckt ist, ist besonders bemerkenswert: Aktuelle Contrastive-Methoden (wie die von LeCun 2005-2006 Pionierreifen) erreichen ein Maximum von etwa 200 Dimensionen in ihren gelernten Darstellungen, selbst auf ImageNet. Das ist die Obergrenze. Neuere Fortschritte wie Barlow Twins, VICReg und SigReg (Teil des LJEPA-Systems) gehen über diese Grenze hinaus, indem sie den Informationsgehalt maximieren, statt nur Contrastive-Loss zu verwenden.
Die CFD-Analogie ist perfekt: Wir simulieren die Luftströmung um ein Flugzeug nicht durch die Modellierung einzelner Moleküle, geschweige denn Quantenfelder. Wir verwenden abstrakte Darstellungen auf der richtigen Granularitätsebene. Das ist das, was World Models tun müssen - nicht jedes Detail simulieren, sondern die richtigen Abstraktionen für die Planung erlernen.
Wichtige Erkenntnisse
- AMIs These: Menschenähnliche KI erfordert World Models, die auf hochdimensionalen kontinuierlichen Daten (Video) trainiert werden, nicht nur auf Text
- Dateneffizienzlücke: 10^14 Bytes trainiert ein LLM auf alle Internet-Texte ODER ein Vision-Modell auf 15.000 Stunden Video (30 Min YouTube)
- JEPA-Architektur: In abstraktem Darstellungsraum vorhersagen, nicht in Pixel-Raum - beseitigt unvorhersehbare Details während die Struktur erhalten bleibt
- Forschungsstrategie: AMI wird offen veröffentlichen, denn “man kann es nicht Forschung nennen, wenn man nicht veröffentlicht” - interne Hype erzeugt Delusionen
- Technische Entwicklung: Von Contrastive Learning (2005) zu VICReg/SigReg (2024) - über die 200-Dimensionen-Grenze hinausgehen
- Planungsanforderung: Intelligenz braucht Konsequenzvorhersage + Optimierung, nicht nur Pattern Matching
- Kritik an der Industrie: Große Labore (Google, Meta, OpenAI) werden geschlossener, trotz historischer Vorteile offener Forschung
- Produktvision: World Models für Planungssysteme, die LLM-basierte Agenten in Zuverlässigkeit und Stichprobeneffizienz übertreffen
Großes Bild
Ein Turing-Award-Gewinner setzt die nächste Dekade auf die These, dass nur Text-basierte KI keine menschenähnliche Intelligenz erreichen kann. Wenn er recht hat, bauen die Billionen-Dollar-Investitionen der Industrie in LLMs Werkzeuge auf, keine Intelligenzen - und der echte Weg zu AGI führt durch Video, World Models und erlernte Physik.