Hinton a Jeff Dean: Spolupráca, ktorá postavila modernú AI
Perspektíva
Toto je jedna z tých vzácnych konverzácií, kde počujete históriu priamo od ľudí, ktorí ju vytvorili. Geoffrey Hinton (nositeľ Nobelovej ceny, “krstný otec AI”) a Jeff Dean (hlavný vedec Googlu, spoluvdca Gemini) spolupracujú od 2012 a ich partnerstvo v podstate vytvorilo modernú AI.
Samotné anekdoty stoja za pozretie. AlexNet - model, ktorý začal revolúciu hlbokého učenia - bol trénovaný na dvoch GPU v spálni Alexa Krizhevského v dome jeho rodičov. “Dobrou správou bolo, že sme zaplatili za GPU dosky, ale jeho rodičia zaplatili za elektrinu,” žartuje Hinton. Keď sa rozhodli predať, založili “DNN Research” špecificky na získanie peňazí z akvizície radšej ako platu (“jeden je 10-krát väčší ako druhý”). Aukcia sa konala počas NeurIPS v Lake Tahoe kasíne - “hore sme robili túto aukciu a museli ste zvyšovať o milión” zatiaľ čo automaty zvonili dole.
Insight škálovania je fascinujúci v retrospektíve. Dean priznáva, že zabudoval dátový paralelizmus do svojej bakalárskej práce z 1990, ale “som si to ani neuvdomil sám” - urobil “obrovskú chybu” tým, že nezvýšil veľkosť modelu, keď pridal procesory. Hinton priznáva, že “skutočne som nedostal lekciu až do 2014”, že väčšie modely jednoducho fungujú lepšie. Mali jednoduché mantra v Google Brain: “väčší model, viac dát, viac výpočtov.”
Príbeh Research in Motion (Blackberry) je varovným príbehom pre každé enterprise. Hinton im ponúkol lepšiu technológiu rozpoznávania reči zadarmo cez stážistu. Odmietli, povediac, že “nemali záujem o rozpoznávanie reči.” Deanovo suché: “No, nepotrebovali ste to. Mali ste klávesnicu.” Toto od kanadskej spoločnosti, ktorej majitelia neskôr sťažovali, že kanadský výskum je “nikdy nevyužitý v Kanade.”
O transformeroch Hinton priznáva, že “nevenoval takmer dosť pozornosti” pôvodne, pretože ho zaujímajú mechanizmy plauzibilné pre mozog. Problém sekvenčnej závislosti LSTM viedol k insightu len “uložte všetky stavy a venujte im pozornosť.” V kombinácii s mixture-of-experts sa tieto algoritmické vylepšenia “vynásobili spolu” - teraz robíme miliardy-krát viac výpočtov ako pred 10 rokmi.
Kľúčové poznatky
- Tréningový rozpočet AlexNet bolo dve GPU a spálňa tínedžera - prelomy nevyžadujú miliardovú infraštruktúru spočiatku
- “Väčší model, viac dát, viac výpočtov” bolo neformálne škálovacie pravidlo v Google Brain roky pred publikovanými škálovacími zákonmi
- Korporátna slepota zabila Blackberry: odmietli bezplatnú technológiu rozpoznávania reči, pretože mali klávesnice
- Algoritmické vylepšenia (transformery, sparse modely) sa násobí s hardvérovými vylepšeniami - nárast výpočtov je “miliardy-krát” za dekádu