Jeff Dean na NeurIPS: Náčrt na servítku, ktorý spustil TPU, a prečo akademický AI výskum potrebuje financovanie

AI Engineer
interviewresearchdeepmindtrainingenterprise

Perspektíva

Toto je Jeff Dean na NeurIPS 2024, čerstvo oznamujúci TPU v7 (Ironwood), a je to iná jeho stránka - menej technickej prednášky, viac strategickej reflexie o tom, ako sa AI inovácia skutočne deje a prečo potrebuje inštitucionálnu podporu.

Náčrt na servítku, ktorý zmenil hardvér navždy. V roku 2013 Dean urobil výpočty na chrbte obálky: ak by Google zaviedol svoj lepší model rozpoznávania reči pre 100 miliónov používateľov na niekoľko minút denne, museli by zdvojnásobiť celú kapacitu dátových centier spoločnosti Google - len pre jedno vylepšenie funkcií. “Požiadavky na výpočty sa stali dosť zastrašujúce.” Tento myšlienkový experiment spustil program TPU. Do roku 2015 bol TPUv1 v dátových centrách - 30-70x energeticky efektívnejší ako CPU/GPU, 15-30x rýchlejší. Pred érou transformerov.

Kodesign hardvéru a softvéru predpovedá celé pole ML. Každá generácia TPU vyžaduje predpovedanie, kde budú ML výpočty za 2,5-6 rokov. “Nie je to veľmi ľahké.” Stratégia: pridať malé hardvérové funkcie, ktoré by mohli byť dôležité. Ak sa oplatia, ste pripravení. Ak nie, stratili ste malý kúsok chipovej plochy. Architektúra transformera bola vytvorená v spoločnosti Google na “veľmi podobnej časovej osi” ako TPU - zhoda v kodesigne.

Abstrakcia Pathways je podceňovaná. Jeden Python proces môže adresovať 20 000 TPU zariadení naprieč viacerými podami, viacerými budovami, viacerými metrópole. Pathways automaticky zisťuje, ktorú sieť použiť - vysokorýchlostnú interconnekty v podoch, sieť dátových centier naprieč podami, dlhé spojenia medzi mestami. Všetok tréning Gemini beží na Jax → Pathways → XLA → TPUs.

Financovanie akademického výskumu je vášňou Deana. “Celá revolúcia hlbokého učenia bola postavená na akademickom výskume z pred 30-40 rokov.” Neurónnové siete a backpropagation pochádzajú z akademickej sféry. Samotná Google bola postavená na TCP/IP, RISC procesoroch a Stanford Digital Library Project (ktorý financoval PageRank). Dean podporuje model Lo Institute: 3-5 ročné moonshot granty s 3-5 riadiacimi výskumníkmi a 30-50 študentmi PhD zameranými na konkrétne spoločenské vplyvy.

Moonshot v zdravotníctve: učiť sa z každého minulého rozhodnutia, aby sme informovali každé budúce. Deanova aspiračná cieľ: použiť každé minulé zdravotnícke rozhodnutie na pomoc každému klinikovi a každej osobe robiť lepšie rozhodnutia. “Super ťažké” kvôli ochrane osobných údajov, regulačnej fragmentácii a nekonzistentnnosti formátov údajov. Vyžaduje federované učenie a ML s ochranou osobných údajov, pretože “nebudete môcť presunúť zdravotnícke údaje z miesta, kde sa nachádzajú.”

Kľúčové poznatky

  • TPU v7 (Ironwood) - 9 216 čipov na pod, podpora FP4 presnosti, 3 600x špičkový výkon v porovnaní s TPUv2
  • Náčrt na servítku - Zavedenie lepšieho rozpoznávania reči by zdvojnásobilo dátové centrá spoločnosti Google; TPU boli existenciálne
  • TPUv1 (2015) - 30-70x energeticky efektívnejší, 15-30x rýchlejší ako CPU/GPU; pred érou transformerov
  • Prognózovanie hardvéru - Každá generácia TPU vyžaduje predpovedanie potrieb ML na 2,5-6 rokov dopredu
  • Pathways - Jeden Python proces adresuje 20 000 zariadení naprieč metrópole; všetok tréning Gemini používa toto
  • Pokračovanie publikovania - Nie je to binárne publikovať/nepublikovať; funkcie Pixel sa najprv nasadzujú, články SIGGRAPH nasledujú
  • Interná konferencia výskumu Google - 6 000 účastníkov; “môže sa cítiť o rok dopredu” v porovnaní s NeurIPS
  • 3-5 ročné moonshoty - Deanov preferovaný časový horizont: “nie tak vzdialený, aby nemal vplyv, nie tak krátky, aby ste nemali ambície”
  • Titan paper - Hybrid transformera + recencia; “zaujímavá myšlienka na skúmanie”, ale zatiaľ nie v Gemini
  • Moonshot v zdravotníctve - Učiť sa z každého minulého rozhodnutia; vyžaduje federované učenie, nemôžete presunúť zdravotnícke údaje

Veľký obraz

TPU existujú, pretože výpočet na servítku ukázal, že zavedenie lepšieho rozpoznávania reči by zdvojnásobilo dátové centrá spoločnosti Google. Kodesign hardvéru a softvéru vyžaduje predpovedanie potrieb ML na 2,5-6 rokov dopredu. Dnes jeden Python proces môže adresovať 20 000 zariadení naprieč viacerými mestami. To je infraštruktúra umožňujúca hraničné modely.