Jeff Dean: 15-ročná história vzniku moderných AI modelov
Perspektíva
Toto je Jeff Dean - zamestnanec č. 30 spoločnosti Google, tvorca MapReduce a BigTable, zakladateľ Google Brain, v súčasnosti vedúci vedec v DeepMind - ktorý prezentuje definitívnu históriu vzniku moderných AI modelov. Je to v podstate príbeh vzostupu hlbokého učenia od niekoho, kto tam bol počas celého procesu.
Pokora pri mylných odhadoch škály. V roku 1990 bol Dean tak vzrušený z neurónových sietí, že napísal svoju seniorskú prácu o paralelnom trénovaní pomocou 32-procesorovej hyperkocky. “Bol som úplne na omyle. Potreboval by si milión krát viac výpočtovej kapacity na to, aby neurónovés siete naozaj fungovali, nie len 32 krát.” Táto intuícia o škále sa ukázala správna - len bola o niekoľko rádov omylná.
Príbeh vzniku Google Brain je prívetivo náhodný. V roku 2012 sa Dean stretol s Andrew Ng v kuchynke Google. Ng spomenul, že jeho študenti zo Stanfordu dosahujú dobré výsledky s neurónovými sieťami pri rozpoznávaní reči. Deanova odpoveď: “Ó, to je pekné. Mne by sme mali trénovať naozaj veľké neurónovové siete.” Táto konverzácia sa stala Google Brain a systémom nedôvery (pomenovaným “čiastočne preto, že ľudia neverili, že by to mohlo fungovať”).
Výpočet na zadnej strane obálky, ktorý spustil TPU. Dean si uvedomil, že ak by Google zaviedol svoj nový vysokokvalitný model rozpoznávania reči a 100 miliónov ľudí by hovorilo do svojich telefónov 3 minúty denne, musel by zdvojnásobiť celú kapacitu dátových centier spoločnosti Google. Špecializovaný hardvér nebol voliteľný - bol to existenciálna potreba. TPU v1 dosiahla 15-30x zrýchlenie oproti CPU/GPU a 30-80x energetickú účinnosť. Článok je teraz najcitovanejším v 50-ročnej histórii ISCA.
Každý hlavný prelom dostane jeden snímok. Word2vec a objav, že smernice vektorov majú sémanticý zmysel (kráľ - muž + žena = kráľovná). Sekvenčno-na-sekvenčné modely na preklad. Transformery s 10-100x energetickou účinnosťou oproti LSTM. Sebavedomé učenie z textu produkujúce “takmer nekonečné trénovacie príklady.” Vision Transformers dosahujúce najmodernejších výsledkov so 4-20x nižšou výpočtovou náročnosťou. Riedke modely aktivujúce len 1-5% parametrov na predikciu. Chain-of-thought prompting. Destillácia. RLHF.
Rámce pokroku sú deprimujúce. “Pred troma rokmi sme boli naozaj vzrušení, keď sme dosiahli 15% správnosti na matematických príkladoch pre ôsmu triedu.” Benchmark GSM8K - zadania zo strednej školy ako “Sean má päť hračiek a na Vianoce dostal ďalšie dve” - je teraz v podstate vyriešený.
Kľúčové poznatky
- Google Brain sa začal v kuchynke - Dean sa stretol s Andrew Ng a rozhodol sa “trénovať naozaj veľké neurónovové siete”
- Nedôvera: “matematicky nesprávne, ale to fungovalo” - Asynchronné trénovanie so 200 replikám modelov aktualizujúcimi zdieľané parametre
- Článok o mačke (2012) - 10 miliónov snímkov z YouTube, nekontrolované učenie, neuróny sa naučili koncept “mačka” bez označení
- Word2vec smery sú sémantické - Kráľ - muž + žena = kráľovná; smery minulého/budúceho času
- TPU imperatív - Zavedenie lepšieho rozpoznávania reči by zdvojnásobilo dátové centrá spoločnosti Google
- TPUv1 - 15-30x rýchlejší, 30-80x energeticky účinnejší ako CPU/GPU
- Transformery (2017) - 10-100x nižšia výpočtová náročnosť ako LSTM pri rovnakej presnosti; pozornosť oproti rekurencii
- Riedke modely - Len 1-5% parametrov aktivovaných na predikciu; Gemini to využíva
- Reťazové myslenie - Model vykonáva viac výpočtov na token “ukázaním svojej práce”
- Destillácia - 3% trénovacích údajov s mäkkými cieľmi sa rovná 100% údajov s tvrdými označeniami
- Pathways - Jeden Python proces dokáže adresovať 10 000 TPU zariadení v rámci mestských oblastí
- Pokrok GSM8K - Presnosť 15% pred 3 rokmi na matematických úlohách 8. triedy; teraz v podstate vyriešené
Všeobecný pohľad
Pätnásť rokov kumulatívnych prelomov - od článku o mačke cez transformery až po riedke modely - vytvorili moderný AI. Každý krok sa zdal inkrementálny; spolu sú transformačné. Osoba, ktorá vytvorila MapReduce, teraz spravuje systémy, ktoré riešia problémy považované za nemožné pred troma rokmi.