Hinton a Jeff Dean: Spolupráce, která postavila moderní AI
Perspektiva
Toto je jedna z těch vzácných konverzací, kde slyšíte historii přímo od lidí, kteří ji vytvořili. Geoffrey Hinton (nositelem Nobelovy ceny, “kmotr AI”) a Jeff Dean (hlavní vědec Google, spoluvůdce Gemini) spolupracují od roku 2012 a jejich partnerství v podstatě vytvořilo moderní AI.
Už samotné anekdoty stojí za shlédnutí. AlexNet - model, který začal revoluci deep learningu - byl trénován na dvou GPU v ložnici Alexe Krizhevského u jeho rodičů. “Dobrou zprávou bylo, že jsme zaplatili za GPU desky, ale jeho rodiče zaplatili za elektřinu,” vtipkuje Hinton. Když se rozhodli prodat, založili si “DNN Research” konkrétně proto, aby získali peníze z akvizice spíše než plat (“jeden je 10krát větší než druhý”). Aukce se konala během NeurIPS v kasinu u jezera Tahoe - “nahoře jsme dělali tuto aukci a museli jste zvýšit o milion” zatímco hrací automaty zněly dole.
Poznatek ohledně škálování je fascinující zpětně. Dean přiznává, že zabudoval datový paralelismus do své bakalářské práce z roku 1990, ale “sám jsem si to vlastně ani neuvědomil” - udělal “obrovskou chybu” tím, že nezvýšil velikost modelu při přidávání procesorů. Hinton přiznává, že “skutečně plně nedostal lekci až do roku 2014”, že větší modely prostě fungují lépe. Měli jednoduché mantra v Google Brain: “větší model, více dat, více výpočtů.”
Příběh Research in Motion (Blackberry) je varovným příběhem pro každý podnik. Hinton jim nabídl lepší technologii rozpoznávání řeči zdarma přes stážistu. Odmítli s tím, že “je nezajímá rozpoznávání řeči.” Deanův suchý komentář: “No, nepotřebovali jste to. Měli jste klávesnici.” To od kanadské společnosti, jejíž majitelé si později stěžovali, že kanadský výzkum je “nikdy nevyužit v Kanadě.”
O transformerech Hinton přiznává, že “nevěnoval téměř dost pozornosti” zpočátku, protože ho zajímají mozku-věrohodné mechanismy. Problém sekvenční závislosti LSTM vedl k poznatku prostě “ukládat všechny stavy a věnovat jim pozornost.” V kombinaci s mixture-of-experts se tato algoritmická zlepšení “znásobila dohromady” - nyní děláme miliardy krát více výpočtů než před 10 lety.
Klíčové poznatky
- Trénovací rozpočet AlexNet byl dvě GPU a ložnice teenagera - průlomy zpočátku nevyžadují miliardovou infrastrukturu
- “Větší model, více dat, více výpočtů” bylo neformální scaling law v Google Brain roky před publikováním formálních scaling laws
- Korporátní slepota zabila Blackberry: odmítli technologii rozpoznávání řeči zdarma, protože měli klávesnice
- Algoritmická zlepšení (transformery, sparse modely) se násobí s hardwarovými zlepšeními - nárůst výpočtů je “miliardy krát” během dekády