Hinton & Jeff Dean: Die Zusammenarbeit, die moderne KI baute

Radical Ventures
interviewresearchenterprisefuture-of-work

Perspektive

Dies ist eines dieser seltenen Gespräche, bei denen Sie Geschichte direkt von den Menschen hören, die sie gemacht haben. Geoffrey Hinton (Nobelpreisträger, “Pate der KI”) und Jeff Dean (Google Chefwissenschaftler, Gemini Co-Lead) arbeiten seit 2012 zusammen, und ihre Partnerschaft hat im Wesentlichen moderne KI geschaffen.

Die Anekdoten allein sind den Watch wert. AlexNet - das Modell, das die Deep-Learning-Revolution startete - wurde auf zwei GPUs in Alex Krizhevskys Schlafzimmer im Haus seiner Eltern trainiert. “Die gute Nachricht war, dass wir für die GPU-Boards bezahlt haben, aber seine Eltern für den Strom bezahlt haben,” scherzt Hinton. Als sie sich entschieden zu verkaufen, gründeten sie “DNN Research” speziell, um Akquisitionsgeld statt Gehaltsgeld zu bekommen (“das eine ist 10-mal größer als das andere”). Die Auktion fand während NeurIPS in einem Lake Tahoe Casino statt - “oben machten wir diese Auktion und Sie mussten um eine Million erhöhen” während unten Spielautomaten klingelten.

Der Skalierungs-Einblick ist im Rückblick faszinierend. Dean gibt zu, dass er Datenparallelismus in seine 1990 Undergrad-Thesis eingebaut hat, aber “habe es selbst nicht wirklich realisiert” - er machte “einen riesigen Fehler”, indem er die Modellgröße nicht erhöhte, als er Prozessoren hinzufügte. Hinton gesteht, dass er “die Lektion bis 2014 nicht wirklich voll bekam”, dass größere Modelle einfach besser funktionieren. Sie hatten ein einfaches Mantra bei Google Brain: “größeres Modell, mehr Daten, mehr Compute.”

Die Research in Motion (Blackberry)-Geschichte ist eine warnende Geschichte für jedes Enterprise. Hinton bot ihnen bessere Spracherkennungstechnologie kostenlos über einen Praktikanten an. Sie lehnten ab und sagten, sie “seien nicht an Spracherkennung interessiert.” Deans trockene Antwort: “Nun, Sie brauchten es nicht. Sie hatten eine Tastatur.” Dies vom kanadischen Unternehmen, dessen Besitzer später beschwerten, dass kanadische Forschung “nie in Kanada ausgenutzt wird.”

Zu Transformers gibt Hinton zu, dass er “anfangs nicht annähernd genug Aufmerksamkeit schenkte”, weil er an hirnplausiblen Mechanismen interessiert ist. Das sequentielle Abhängigkeitsproblem von LSTMs führte zum Einblick, einfach “alle Zustände zu speichern und auf sie zu achten.” Kombiniert mit Mixture-of-Experts haben sich diese algorithmischen Verbesserungen “zusammenmultipliziert” - wir machen jetzt Milliarden Mal mehr Compute als vor 10 Jahren.

Wichtige Erkenntnisse

  • AlexNets Trainingsbudget waren zwei GPUs und ein Teenager-Schlafzimmer - Durchbrüche erfordern anfangs keine Milliarden-Dollar-Infrastruktur
  • “Größeres Modell, mehr Daten, mehr Compute” war das informelle Skalierungsgesetz bei Google Brain Jahre bevor formale Skalierungsgesetze veröffentlicht wurden
  • Unternehmensblindheit tötete Blackberry: Sie lehnten kostenlose Spracherkennungstechnologie ab, weil sie Tastaturen hatten
  • Algorithmische Verbesserungen (Transformer, Sparse-Modelle) multiplizieren sich mit Hardware-Verbesserungen - die Compute-Zunahme ist “Milliarden Mal” über ein Jahrzehnt