Jeff Dean: Eine 15-jährige Achterbahnfahrt durch die Entstehung moderner KI-Modelle
Perspektive
Das ist Jeff Dean - Angestellter Nr. 30 bei Google, Schöpfer von MapReduce und BigTable, Gründer von Google Brain, jetzt Chief Scientist bei DeepMind - der die definitive Geschichte darüber erzählt, wie moderne KI-Modelle entstanden sind. Es ist im Wesentlichen die Insider-Geschichte des Aufstiegs des Deep Learning von jemandem, der die ganze Zeit dabei war.
Die Demut, Skalierung falsch zu verstehen. 1990 war Dean so begeistert von neuronalen Netzwerken, dass er seine Abschlussarbeit über paralleles Training mit einem 32-Prozessor-Hypercube-Computer schrieb. “Ich lag völlig falsch. Man brauchte etwa eine Million mal so viel Rechenleistung, um wirklich gute neuronale Netze zu erzeugen, nicht 32 mal.” Diese Intuition über Skalierung sollte sich als richtig erweisen - nur um Größenordnungen daneben.
Die Google Brain-Gründungsgeschichte ist erfreulich beiläufig. 2012 traf Dean Andrew Ng in einer Google-Mikro-Küche. Ng erwähnte, dass seine Stanford-Studenten gute Ergebnisse mit neuronalen Netzen bei der Spracherkennung erzielten. Deans Antwort: “Oh, das ist cool. Wir sollten wirklich große neuronale Netzwerke trainieren.” Aus diesem Gespräch wurde Google Brain und das Disbelief-System (benannt “teilweise, weil Leute nicht glaubten, dass es funktionieren würde”).
Die Berechnung auf der Rückseite einer Serviette, die TPUs startete. Dean erkannte, dass wenn Google sein neues hochqualitatives Spracherkennungsmodell einführen würde und 100 Millionen Menschen täglich 3 Minuten lang mit ihren Telefonen sprechen würden, sie die gesamte Rechenzentrums-Kapazität Googles verdoppeln müssten. Spezialisierte Hardware war nicht optional - sie war existenziell. TPU v1 lieferte 15-30x Speedup gegenüber CPUs/GPUs und 30-80x Energieeffizienz. Das Paper ist jetzt das meistzitierte in ISCAs 50-jähriger Geschichte.
Jeder große Durchbruch bekommt eine Folie. Word2vec und die Entdeckung, dass Vektorrichtungen bedeutungsvoll sind (König - Mann + Frau = Königin). Sequence-to-Sequence-Modelle für Übersetzung. Transformer zeigen 10-100x Recheneffizienz über LSTMs. Selbstüberwachtes Lernen bei Text produziert “fast unendliche Trainingsbeispiele”. Vision Transformers erzielen State-of-the-Art mit 4-20x weniger Rechenleistung. Spärliche Modelle aktivieren nur 1-5% der Parameter pro Vorhersage. Chain-of-Thought-Prompting. Distillation. RLHF.
Die Fortschritts-Formulierung ist nüchtern. “Vor drei Jahren waren wir wirklich begeistert, dass wir 15% richtig bei Mathematikaufgaben der achten Klasse hinbekommen hatten.” Dieses GSM8K-Benchmark - Textaufgaben der Mittelstufe wie “Sean hat fünf Spielzeuge und zu Weihnachten bekam er zwei weitere” - ist jetzt im Wesentlichen gelöst.
Wichtigste Erkenntnisse
- Google Brain startete in einer Mikro-Küche - Dean traf Andrew Ng, beschloss, “wirklich große neuronale Netzwerke zu trainieren”
- Disbelief: “mathematisch falsch, aber es funktionierte” - Asynchrones Training mit 200 Modellreplikas, die gemeinsame Parameter aktualisieren
- Cat Paper (2012) - 10 Millionen YouTube-Frames, unüberwachtes Lernen, Neuronen lernten “Katzen”-Konzept ohne Labels
- Word2vec-Richtungen sind semantisch - König - Mann + Frau = Königin; Vergangenheits-/Zukunftssprachrichtungen
- TPU-Imperativ - Die Einführung einer besseren Spracherkennung hätte Googles Rechenzentren verdoppelt
- TPUv1 - 15-30x schneller, 30-80x energieeffizienter als CPUs/GPUs
- Transformer (2017) - 10-100x weniger Rechenleistung als LSTMs für gleiche Genauigkeit; Aufmerksamkeit statt Rekurrenz
- Spärliche Modelle - Nur 1-5% der Parameter werden pro Vorhersage aktiviert; Gemini nutzt dies
- Chain of Thought - Modell führt mehr Berechnungen pro Token durch, indem es “seine Arbeit zeigt”
- Distillation - 3% der Trainingsdaten mit weichen Zielen entsprechen 100% der Daten mit harten Labels
- Pathways - Ein einzelner Python-Prozess kann 10.000 TPU-Geräte über Metropolregionen adressieren
- GSM8K-Fortschritt - vor 3 Jahren 15% Genauigkeit bei Mathematik der 8. Klasse; jetzt im Wesentlichen gelöst
Großes Bild
Fünfzehn Jahre sich zusammensetzender Durchbrüche - vom Cat Paper über Transformer zu spärlichen Modellen - schufen moderne KI. Jeder Schritt schien inkrementell; zusammen sind sie transformativ. Die Person, die MapReduce baute, führt jetzt Systeme, die vor drei Jahren für unmöglich hielt Probleme lösen.