Jeff Dean na NeurIPS: Náčrt na servítku, ktorý spustil TPU, a prečo akademický AI výskum potrebuje financovanie
Perspektíva
Toto je Jeff Dean na NeurIPS 2024, čerstvo oznamujúci TPU v7 (Ironwood), a je to iná jeho stránka - menej technickej prednášky, viac strategickej reflexie o tom, ako sa AI inovácia skutočne deje a prečo potrebuje inštitucionálnu podporu.
Náčrt na servítku, ktorý zmenil hardvér navždy. V roku 2013 Dean urobil výpočty na chrbte obálky: ak by Google zaviedol svoj lepší model rozpoznávania reči pre 100 miliónov používateľov na niekoľko minút denne, museli by zdvojnásobiť celú kapacitu dátových centier spoločnosti Google - len pre jedno vylepšenie funkcií. “Požiadavky na výpočty sa stali dosť zastrašujúce.” Tento myšlienkový experiment spustil program TPU. Do roku 2015 bol TPUv1 v dátových centrách - 30-70x energeticky efektívnejší ako CPU/GPU, 15-30x rýchlejší. Pred érou transformerov.
Kodesign hardvéru a softvéru predpovedá celé pole ML. Každá generácia TPU vyžaduje predpovedanie, kde budú ML výpočty za 2,5-6 rokov. “Nie je to veľmi ľahké.” Stratégia: pridať malé hardvérové funkcie, ktoré by mohli byť dôležité. Ak sa oplatia, ste pripravení. Ak nie, stratili ste malý kúsok chipovej plochy. Architektúra transformera bola vytvorená v spoločnosti Google na “veľmi podobnej časovej osi” ako TPU - zhoda v kodesigne.
Abstrakcia Pathways je podceňovaná. Jeden Python proces môže adresovať 20 000 TPU zariadení naprieč viacerými podami, viacerými budovami, viacerými metrópole. Pathways automaticky zisťuje, ktorú sieť použiť - vysokorýchlostnú interconnekty v podoch, sieť dátových centier naprieč podami, dlhé spojenia medzi mestami. Všetok tréning Gemini beží na Jax → Pathways → XLA → TPUs.
Financovanie akademického výskumu je vášňou Deana. “Celá revolúcia hlbokého učenia bola postavená na akademickom výskume z pred 30-40 rokov.” Neurónnové siete a backpropagation pochádzajú z akademickej sféry. Samotná Google bola postavená na TCP/IP, RISC procesoroch a Stanford Digital Library Project (ktorý financoval PageRank). Dean podporuje model Lo Institute: 3-5 ročné moonshot granty s 3-5 riadiacimi výskumníkmi a 30-50 študentmi PhD zameranými na konkrétne spoločenské vplyvy.
Moonshot v zdravotníctve: učiť sa z každého minulého rozhodnutia, aby sme informovali každé budúce. Deanova aspiračná cieľ: použiť každé minulé zdravotnícke rozhodnutie na pomoc každému klinikovi a každej osobe robiť lepšie rozhodnutia. “Super ťažké” kvôli ochrane osobných údajov, regulačnej fragmentácii a nekonzistentnnosti formátov údajov. Vyžaduje federované učenie a ML s ochranou osobných údajov, pretože “nebudete môcť presunúť zdravotnícke údaje z miesta, kde sa nachádzajú.”
Kľúčové poznatky
- TPU v7 (Ironwood) - 9 216 čipov na pod, podpora FP4 presnosti, 3 600x špičkový výkon v porovnaní s TPUv2
- Náčrt na servítku - Zavedenie lepšieho rozpoznávania reči by zdvojnásobilo dátové centrá spoločnosti Google; TPU boli existenciálne
- TPUv1 (2015) - 30-70x energeticky efektívnejší, 15-30x rýchlejší ako CPU/GPU; pred érou transformerov
- Prognózovanie hardvéru - Každá generácia TPU vyžaduje predpovedanie potrieb ML na 2,5-6 rokov dopredu
- Pathways - Jeden Python proces adresuje 20 000 zariadení naprieč metrópole; všetok tréning Gemini používa toto
- Pokračovanie publikovania - Nie je to binárne publikovať/nepublikovať; funkcie Pixel sa najprv nasadzujú, články SIGGRAPH nasledujú
- Interná konferencia výskumu Google - 6 000 účastníkov; “môže sa cítiť o rok dopredu” v porovnaní s NeurIPS
- 3-5 ročné moonshoty - Deanov preferovaný časový horizont: “nie tak vzdialený, aby nemal vplyv, nie tak krátky, aby ste nemali ambície”
- Titan paper - Hybrid transformera + recencia; “zaujímavá myšlienka na skúmanie”, ale zatiaľ nie v Gemini
- Moonshot v zdravotníctve - Učiť sa z každého minulého rozhodnutia; vyžaduje federované učenie, nemôžete presunúť zdravotnícke údaje
Veľký obraz
TPU existujú, pretože výpočet na servítku ukázal, že zavedenie lepšieho rozpoznávania reči by zdvojnásobilo dátové centrá spoločnosti Google. Kodesign hardvéru a softvéru vyžaduje predpovedanie potrieb ML na 2,5-6 rokov dopredu. Dnes jeden Python proces môže adresovať 20 000 zariadení naprieč viacerými mestami. To je infraštruktúra umožňujúca hraničné modely.