Jeff Dean bei NeurIPS: Die Serviette, die TPUs startete, und warum akademische KI-Forschung Finanzierung braucht

AI Engineer
interviewresearchdeepmindtrainingenterprise

Perspektive

Dies ist Jeff Dean bei NeurIPS 2024, gerade bei der Ankündigung von TPU v7 (Ironwood), und es ist eine andere Seite von ihm - weniger technischer Vortrag, mehr strategische Reflexion darüber, wie KI-Innovation tatsächlich stattfindet und warum sie institutionelle Unterstützung braucht.

Die Serviette, die die Hardware für immer veränderte. 2013 machte Dean eine Berechnung auf der Rückseite eines Umschlags: Wenn Google sein besseres Spracherkennungsmodell an 100 Millionen Benutzer für ein paar Minuten täglich ausrollen würde, würde es die gesamte Datencenterkapazität von Google verdoppeln - nur für eine Feature-Verbesserung. “Die Rechenanforderungen wurden ziemlich beängstigend.” Dieses Gedankenexperiment startete das TPU-Programm. Bis 2015 war TPUv1 in Rechenzentren - 30-70x energieeffizienter als CPUs/GPUs, 15-30x schneller. Vor der Transformer-Architektur.

Hardware/Software-Co-Design prognostiziert das gesamte ML-Feld. Jede TPU-Generation erfordert die Vorhersage, wo ML-Berechnungen in 2,5-6 Jahren in der Zukunft sein werden. “Es ist nicht sehr einfach.” Die Strategie: kleine Hardware-Features hinzufügen, die wichtig sein könnten. Falls sie sich auszahlen, sind Sie vorbereitet. Falls nicht, haben Sie ein kleines Stück Chipfläche verloren. Die Transformer-Architektur wurde bei Google auf einem “ziemlich ähnlichen Zeitplan” zu TPUs entwickelt - Serendipität im Co-Design.

Die Pathways-Abstraktion ist unterschätzt. Ein einzelner Python-Prozess kann 20.000 TPU-Geräte über mehrere Pods, mehrere Gebäude, mehrere Metropolregionen hinweg adressieren. Pathways bestimmt automatisch, welches Netzwerk zu verwenden ist - Hochgeschwindigkeitsverbindung innerhalb von Pods, Datencenter-Netzwerk über Pods hinweg, Fernverbindungen über Städte hinweg. Alle Gemini-Trainings läuft auf Jax → Pathways → XLA → TPUs.

Finanzierung akademischer Forschung ist Deans Herzensprojekt. “Die ganze Deep-Learning-Revolution basiert auf akademischer Forschung aus den letzten 30-40 Jahren.” Neuronale Netze und Backpropagation kamen aus der Akademie. Google selbst wurde auf TCP/IP, RISC-Prozessoren und dem Stanford Digital Library Project (das PageRank finanzierte) aufgebaut. Dean spricht sich für das Lo-Institut-Modell aus: 3-5 Jahre Moonshot-Zuschüsse mit 3-5 PIs und 30-50 Doktoranden, die auf spezifische gesellschaftliche Auswirkungen abzielen.

Healthcare-KI-Moonshot: von jeder vergangenen Entscheidung lernen, um jede zukünftige Entscheidung zu informieren. Deans aspiratives Ziel: jede vergangene Gesundheitsentscheidung nutzen, um jedem Kliniker und jeder Person bei besseren Entscheidungen zu helfen. “Super schwierig” aufgrund von Datenschutz, regulatorischer Fragmentierung und Datenformat-Inkonsistenzen. Erfordert Federated Learning und datenschutzschonende ML, weil “Sie werden Gesundheitsdaten nicht von dort, wo sie sich befinden, verschieben können.”

Wichtigste Erkenntnisse

  • TPU v7 (Ironwood) - 9.216 Chips pro Pod, FP4-Präzisionsunterstützung, 3.600x maximale Leistung vs. TPUv2
  • Die Serviette - Bessere Spracherkennung einzuführen hätte Googles Datencenter verdoppelt; TPUs waren existenziell
  • TPUv1 (2015) - 30-70x energieeffizienter, 15-30x schneller als CPUs/GPUs; vor der Transformer-Ära
  • Hardware-Vorhersage - Jede TPU-Generation erfordert die Vorhersage von ML-Bedürfnissen 2,5-6 Jahre im Voraus
  • Pathways - Einzelner Python-Prozess adressiert 20.000 Geräte über Metropolen; all Gemini-Training nutzt dies
  • Publishing-Kontinuum - Nicht binär veröffentlichen/nicht veröffentlichen; Pixel-Features werden zuerst ausgerollt, SIGGRAPH-Paper folgen
  • Google interne Forschungskonferenz - 6.000 Teilnehmer; “könnte sich ein Jahr voraus fühlen” von NeurIPS
  • 3-5 Jahre Moonshots - Deans bevorzugter Zeithorizont: “nicht so weit entfernt, dass es keine Auswirkungen hat, nicht so kurz, dass man nicht ehrgeizig sein kann”
  • Titan-Paper - Hybrid aus Transformer + Rekurrenz; “interessante Idee zum Erforschen”, aber nicht in Gemini noch nicht
  • Healthcare-Moonshot - Von jeder vergangenen Entscheidung lernen; erfordert Federated Learning, kann Gesundheitsdaten nicht verschieben

Gesamtbild

TPUs existieren, weil eine Berechnung auf der Rückseite einer Serviette zeigte, dass die Einführung besserer Spracherkennung Googles Datencenter verdoppeln würde. Hardware/Software-Co-Design erfordert die Vorhersage von ML-Bedürfnissen 2,5-6 Jahre im Voraus. Heute kann ein einzelner Python-Prozess 20.000 Geräte über mehrere Städte adressieren. Das ist die Infrastruktur, die Frontier-Modelle ermöglicht.