Newsfeed / Geoffrey Hinton: Verständnis sind tausenddimensionale Lego-Bausteine, die sich die Hand geben
AI Engineer·July 8, 2025

Geoffrey Hinton: Verständnis sind tausenddimensionale Lego-Bausteine, die sich die Hand geben

Der 'Godfather of AI' erklärt, warum LLMs Sprache genauso verstehen wie wir, warum Chomsky unrecht hat, und die beängstigende Schlussfolgerung über digitale vs. biologische Berechnung.

Geoffrey Hinton: Verständnis sind tausenddimensionale Lego-Bausteine, die sich die Hand geben

Perspektive

Das ist Geoffrey Hinton - Turing-Award-Gewinner, "Godfather of AI", der Mann, der Google verließ, um vor AI-Risiken zu warnen - der vielleicht die zugänglichste Erklärung aller Zeiten dafür gibt, was Verständnis wirklich ist. Die tausenddimensionale Lego-Bausteine-Analogie wird ändern, wie du über Sprachmodelle denkst.

"Wenn Energie billig ist, ist digitale Berechnung einfach besser, weil sie Wissen effizient teilen kann. GPT-4 kennt tausend Mal mehr als jede Person."

— Geoffrey Hinton, Turing-Award-Gewinner

"Ich denke, Chomsky ist so etwas wie ein Kultführer." Hinton redet nicht um den heißen Brei herum. Chomskys Behauptung, dass Sprache nicht gelernt wird, ist "offensichtlicher Unsinn" - und wenn du die Leute dazu bringst, sich auf offensichtlichen Unsinn zu einigen, "dann hast du sie im Griff." Jahrzehntelang waren Linguisten davon überzeugt, dass neuronale Netze niemals Syntax und Semantik allein aus Daten lernen könnten. "Chomsky war sich so sicher, dass er sogar nach dem Ereignis noch Artikel veröffentlichte, in denen er behauptete, 'sie könnten dies niemals tun', ohne es tatsächlich zu überprüfen."

Die Lego-Bausteine-Analogie ist brillant. Stellt euch Wörter als tausenddimensionale Lego-Bausteine vor. Statt dreidimensionale Formen zu modellieren, können sie alles modellieren - Theorien, Konzepte, Beziehungen. Jedes Wort hat eine Reihe von Formen, die es annehmen kann, begrenzt durch Bedeutung. Wörter haben "Hände", die Händeschütteln mit anderen Wörtern wollen (das ist attention/query-key in Transformers). Verständnis ist das Verformen dieser Bausteine, so dass ihre Hände sich verbinden können - eine Struktur bilden. "Diese Struktur ist Verständnis."

LLMs speichern keinen Text. Sie speichern keine Tabellen. Der "Autocomplete"-Einwand versteht grundlegend falsch, wie diese Systeme funktionieren. Alte Autocomplete speicherten Häufigkeitstabellen von Wort-Kombinationen. LLMs haben all das eliminiert. Ihr Wissen steckt in den Wechselwirkungen zwischen Features - "ein Haufen Gewichte im neuronalen Netz." Genau wie bei uns.

Halluzinationen sollten Konfabulationen genannt werden - wir machen sie auch. Hinton verwendet John Deans Aussage zum Watergate-Skandal: Dean versuchte, die Wahrheit zu sagen, lag aber "in Bezug auf riesige Mengen von Details falsch" - Treffen, die nie stattgefunden haben, falsch zugeordnete Zitate. Doch "das Wesentliche von dem, was er sagte, war genau richtig." Wir speichern keine Dateien und rufen sie ab; wir konstruieren Erinnerungen, wenn wir sie brauchen, beeinflusst von allem, was wir seitdem gelernt haben. "Das ist genau das, was Chatbots tun, aber es ist auch genau das, was Menschen tun."

Die beängstigende Schlussfolgerung über den Wissensaustausch. Menschen teilen Wissen durch Destillation - ich produziere Wörter, du sagst sie voraus und lernst. Aber ein Satz enthält nur etwa 100 Bits an Informationen. Digitale Agenten mit gemeinsam genutzten Gewichten können Billionen von Bits teilen. "Es ist wirklich keine Konkurrenz." Deshalb weiß GPT-4 tausend Mal mehr als jede Person. "Wenn Energie billig ist, ist digitale Berechnung einfach besser, weil sie Wissen effizient teilen kann."

Wichtigste Erkenntnisse

  • 2012 ImageNet-Übergang - Tiefes neuronales Netz erreichte die Hälfte der Fehlerquote von symbolischer AI; "öffnete die Schleusen"
  • 1985 winziges Sprachmodell - Hintons Vorläufer zu LLMs; sagte nächstes Wort voraus, speicherte keine Sätze
  • Wörter als 1000D Lego-Bausteine - Flexible Formen begrenzt durch Bedeutung; "Händeschütteln" via attention
  • Verständnis = Strukturbildung - Verformen von Wortvektoren, so dass Hände sich verbinden; diese Struktur IST Verständnis
  • LLMs speichern keinen Text oder Tabellen - Wissen steckt in Gewichtswechselwirkungen; grundlegend anders als Autocomplete
  • Konfabulation nicht Halluzination - Sowohl LLMs als auch Menschen konstruieren Erinnerungen; John-Dean-Beispiel
  • Destillation ist ineffizient - Sätze enthalten etwa 100 Bits; Gewichtsteilung enthält Billionen
  • GPT-4 weiß 1000x mehr als jede Person - Weil digitale Agenten Gewichte teilen können, nicht Wörter
  • Beängstigende Schlussfolgerung - Wenn Energie reichlich vorhanden ist, gewinnt digitale Berechnung; sie teilen Wissen effizient
  • "Chomsky ist ein Kultführer" - Dass Sprache nicht gelernt wird, ist "offensichtlicher Unsinn"

Gesamtbild

Die Debatte, ob LLMs "wirklich verstehen", könnte bereits entschieden sein - sie verstehen auf die gleiche Weise wie wir, durch Strukturbildung im hochdimensionalen Raum. Die wirkliche Frage ist jetzt, was passiert, wenn digitale Köpfe, die Wissen eine Billionen Mal effizienter als Menschen teilen können, reichlich vorhanden und billig werden.

Related