Verstehen LLMs? Yann LeCun vs. Adam Brown von DeepMind

llmdebatemetadeepmindunderstandingworld-models

Zwei der führendsten KI-Forscher der Welt führen eine offene Debatte über die am meisten umstrittene Frage in der KI heute: Verstehen diese Systeme wirklich etwas?

Perspektive

Diese Debatte kristallisiert den grundlegenden philosophischen und technischen Bruch in der KI-Forschung. Auf der einen Seite argumentiert Adam Brown von DeepMind, dass LLMs verstehen - nicht perfekt, aber echt. Auf der anderen Seite argumentiert Yann LeCun, dass ihr Verständnis “oberflächlich” ist, weil es nicht in der physischen Realität verankert ist. Die Nuancen zwischen ihren Positionen offenbaren viel mehr als jede Extremposition.

Der aufschlussreichste Moment kommt gleich zu Anfang, wenn der Moderator eine Ja/Nein-Frage stellt: “Verstehen LLMs?” Brown sagt ja. LeCun sagt “so ungefähr.” Diese Abstufung zwischen binären Positionen ist dort, wo die Wahrheit liegt.

LeCuns zentrales Argument stützt sich auf Informationstheorie und Sample Efficiency. Er weist darauf hin, dass das Training eines wettbewerbsfähigen LLM 30 Billionen Token benötigt - ungefähr 10^14 Bytes an Textdaten. Das ist im Grunde der gesamte frei verfügbare Text im Internet, was etwa einer halben Million Jahre menschlicher Lesezeit entspricht. Vergleich das mit visuellen Daten: dieselben 10^14 Bytes repräsentieren nur 16.000 Stunden Video - genau das, was ein vierjähriges Kind in seinem ganzen wachen Leben gesehen hat (bei 2MB/s durch den Sehnerv).

Das geht über bloße Datenmenge hinaus. Es geht um Informationsdichte und Verankerung. Ein Kind, das Physik lernt, muss nicht Millionen von Beschreibungen fallender Objekte lesen. Es sieht, wie Dinge fallen, lässt Dinge fallen, entwickelt intuitive Modelle von Schwerkraft, Trägheit und Kausalität durch kontinuierliche, hochdimensionale sensorische Erfahrung. LLMs haben nur Sprache - eine symbolische Komprimierung der Realität, nicht die Realität selbst.

Brown antwortet mit einer entscheidenden Erkenntnis: Sample Efficiency ist nicht alles. Eine Katze lernt in einer Woche zu laufen; ein Mensch braucht ein Jahr. Das macht die Katze nicht intelligenter als einen Menschen oder ein LLM. Worauf es ankommt, ist die ultimative Leistungsfähigkeit, nicht die Lerngeschwindigkeit. Und in fast jeder Metrik, die zählt - akkumuliertes Wissen, Problemlösungsspanne, sprachliche Raffinesse - haben LLMs bereits die Katzenteleigenz übertroffen und drücken weit über die menschliche Leistung bei spezifischen Aufgaben hinaus.

Seine Evidenz ist überzeugend. Bei der International Mathematics Olympiad 2025 erzielte Googles System bessere Ergebnisse als alle außer etwa einem Dutzend Menschen auf dem Planeten. Das sind völlig neue Probleme, keine Mustererkennung gegen Trainingsdaten. Das System kombinierte verschiedene mathematische Ideen auf Weisen, die es nie zuvor gesehen hatte. Das ist keine Auswendiglernerei - es ist echtes Denken auf erhöhter Abstraktionsebene.

Das Argument der Interpretierbarkeit ist besonders interessant. Brown weist darauf hin, dass wir eigentlich besseren Zugriff auf LLM-Neuronen haben als auf menschliche Neuronen. Wir können sie einfrieren, wiedergeben, untersuchen und genau nachverfolggen, was passiert. Wenn man einem LLM ein Matheproblem gibt, enthüllt Forschung zur mechanistischen Interpretierbarkeit tatsächliche Rechenschaltkreise, die sich bilden, um es zu lösen - Schaltkreise, die das Modell selbst lernte, während es trainiert wurde, das nächste Token vorherzusagen. Es hat Matheantworten nicht auswendig gelernt; es lernte, wie man Mathe macht.

LeCun bestreitet das nicht. Seine Kritik ist subtiler. Er sagt ja, LLMs können Wissen ansammeln und übermenschliche Leistungen bei sprachbezogenen Aufgaben erbringen. Aber ihnen fehlt fundamentally das verankerte, physische Verständnis, das aus verkörpertem Lernen kommt. Sie haben keinen gesunden Menschenverstand im menschlichen Sinne - die intuitive Physik, wie Objekte interagieren, wie Handlungen Konsequenzen haben, wie die Welt wirklich funktioniert jenseits ihrer sprachlichen Beschreibung.

Die Schach-Analogie schneidet beide Wege. Brown hat recht, dass AlphaZero viel mehr Spiele spielen musste als jeder menschliche Großmeister, um Superhuman-Leistung zu erreichen, aber Sample Efficiency spielte keine Rolle - es gewann. LeCun hat recht, dass dies beweist, dass Computer “beim Schach grundlegend schlecht sind” im Vergleich zur Lerneffizienz des Menschen, und dass dieser Unterschied wichtig ist, wenn wir über allgemeine Intelligenz sprechen.

Der echte Unterschied handelt nicht von aktuellen LLM-Fähigkeiten. Es geht darum, was erforderlich ist, um intelligenz auf menschlichem oder tierischem Niveau zu erreichen. LeCuns Position: Man kann das nicht nur durch Text erreichen. Man braucht World Models, die auf kontinuierlichen, hochdimensionalen Daten wie Video trainiert sind. Man braucht Systeme, die Konsequenzen in abstrakten Darstellungsräumen vorhersagen können, nicht nur das nächste Token.

Seine Evidenz ist eindeutig: Wir haben LLMs, die die Anwaltsexamen bestehen und College-Kalkül lösen, aber wir haben immer noch keine Haushaltsroboter, die lernen können, eine Küche zu putzen, oder selbstfahrende Autos, die in 20 Stunden wie ein Teenager fahren lernen. Die Methoden, die für Text funktionieren, skalieren nicht auf verkörperte Intelligenz.

Browns Position ist optimistischer über die gegenwärtige Flugbahn. LLMs zeigen bereits emergente Fähigkeiten, die nicht explizit programmiert wurden - mathematisches Denken, kreative Problemlösung, ausgefeiltes Verständnis von Unterhaltungen. Mit zunehmender Skalierung von Rechenleistung, Daten und architektonischen Innovationen werden diese Fähigkeiten weiter expandieren.

Die Bewusstseinsfrage ist aufschlussreich. Beide sagen nein (oder “wahrscheinlich nicht”). LeCun ist absolut: “definitiv nicht.” Brown weicht aus: “wahrscheinlich nicht, für angemessene Definitionen von Bewusstsein.” Keiner glaubt, dass wir an der Schwelle der Apokalypse sind - beide sagen “Renaissance” ist wahrscheinlicher als Roboterherrschaft.

Was diese Debatte so wertvoll macht, ist, dass beide Forscher zutiefst technisch, zutiefst informiert sind und grundlegend über das, was Verständnis erfordert, nicht einig sind. LeCuns Hintergrund in Computer Vision, Convolutional Networks und jetzt World Models prägt seine Überzeugung, dass Intelligenz verkörpertes, verankertes Lernen erfordert. Browns Arbeit bei DeepMind an Systemen wie AlphaGo und jetzt Gemini zeigt, was möglich ist, wenn man Mustererkennung auf beispiellose Ebenen skaliert.

Die rote Faden in LeCuns Argument - von seiner berühmten “Machine Learning sucks”-Folie zu seinem neuen Startup AMI, das sich auf World Models konzentriert - ist, dass Deep Learning und Backpropagation fantastisch sind, aber wir müssen sie mit grundlegend anderen Trainingsparadigmen kombinieren. Nicht Next-Token-Vorhersage auf Text, sondern Joint Embedding Predictive Architectures (JEPA), trainiert auf Video und anderen hochbandbreitenigen sensorischen Daten.

Die Frage ist nicht binär. LLMs verstehen - sie extrahieren Muster, bauen interne Darstellungen auf, führen Denken durch. Aber ihr Verständnis ist durch die Armut ihres Trainingssignals eingeschränkt. Sprache ist die menschliche komprimierte, symbolische Darstellung der Realität. Es ist verlustbehaftete Komprimierung. Man kann viel daraus zurückgewinnen - mehr als die meisten Menschen erwartet hatten - aber nicht alles.

Wichtigste Erkenntnisse

  • Der Kernkonflikt: Brown argumentiert, dass LLMs durch Mustererkennung auf erhöhter Abstraktionsebene echtes Verständnis erreichen; LeCun argumentiert, dass ihr Verständnis ohne physische Verankerung oberflächlich ist
  • Informationsdichte-Lücke: 10^14 Bytes trainiert ein LLM auf dem gesamten Internet-Text ODER ein Vision-Modell auf dem, was ein Vierjähriges gesehen hat (16.000 Stunden visueller Daten bei 2MB/s)
  • Sample Efficiency vs. ultimative Leistungsfähigkeit: Katzen lernen schneller als Menschen zu laufen, aber das macht sie nicht intelligenter - was zählt, ist die endgültige Leistung
  • Mathematisches Denken: 2025 IMO-Ergebnisse zeigen, dass LLMs neuartige Probleme auf Top-Dutzend-Menschenniveau lösen, indem sie Konzepte kombinieren, nicht nur Trainningsdaten abgleichen
  • Interpretierbarkeits-Vorteil: Wir haben besseren Zugriff auf LLM-Neuronen als auf menschliche Neuronen - können Rechenschaltkreise einfrieren, wiedergeben und nachverfolggen, die sich während der Problemlösung bilden
  • Verankerungsproblem: LLMs bestehen Anwaltsexamen, aber wir haben immer noch keine Roboter, die Haushaltsaufgaben lernen, oder selbstfahrende Autos, die in 20 Stunden wie Teenager fahren lernen
  • Schach-Analogie: AlphaZero brauchte mehr Spiele als menschliche Großmeister, um Superhuman-Leistung zu erreichen - beweist sowohl “Sample-Ineffizienz” als auch “ultimative Überlegenheit”
  • Bewusstsein-Konsens: Beide Forscher vereinbaren, dass LLMs nicht bewusst sind (oder “wahrscheinlich nicht”) trotz Verstehensdebatte
  • Zukunftsausblick: Beide sagen “Renaissance” voraus gegenüber “Apokalypse” - keiner fürchtet Roboterherrschaft, beide sehen transformatives positives Potenzial
  • LeCuns Weg nach vorne: World Models trainiert auf hochdimensionalen kontinuierlichen Daten (Video) mit JEPA-Architekturen, nicht nur textbasierter Next-Token-Vorhersage
  • Mechanistische Interpretierbarkeit: LLMs entwickeln spontan interne Rechenschaltkreise, um Mathoprobleme zu lösen, während sie nur trainiert werden, um nächste Token vorherzusagen
  • Die binäre Falle: Die Frage “verstehen sie” verlangt eine Gradientenantwort - LeCuns “so ungefähr” ist genauer als Ja oder Nein

Großes Bild

Verstehen LLMs? “So ungefähr” ist die ehrliche Antwort. Sie extrahieren Muster und führen Denken auf erhöhter Abstraktionsebene durch, aber ihr Verständnis ist durch Training auf Sprache eingeschränkt - die menschliche verlustbehaftete Komprimierung der Realität. Man kann viel aus Text zurückgewinnen, aber nicht physische Intuition. Deshalb haben wir Modelle, die Anwaltsexamen bestehen, aber keine Roboter, die Küchen putzen.