Jeff Dean: 15letá procházka dějinami vzniku moderních AI modelů
Perspektiva
Toto je Jeff Dean - zaměstnanec číslo 30 v Googlu, tvůrce MapReduce a BigTable, zakladatel Google Brain, nyní vedoucí vědecký pracovník v DeepMind - podávající definitivní historii toho, jak se moderní AI modely vznikly. Je to v podstatě příběh z první ruky o vzestupu hlubokého učení od někoho, kdo tam byl v každém klíčovém okamžiku.
Pokora z chybného odhadu měřítka. V roce 1990 byl Dean tak nadšený neuronovými sítěmi, že na téma paralelního trénování napsal svou závěrečnou práci pomocí počítače s 32 procesory. “Zcela jsem se mýlil. Potřebovali jste něco jako milionkrát větší výpočetní výkon, aby neurální sítě opravdu fungovaly, ne jen 32krát více.” Tato intuice o měřítku se nakonec ukázala správná - jen se mýlila o řády.
Příběh vzniku Google Brain je báječně maličký. V roce 2012 se Dean v Google mikrokuchyňce potkal s Andrew Ng. Ng zmínil, že jeho studenti na Stanfordu dosahují dobrých výsledků s neuronový sítěmi v rozpoznávání řeči. Deanova odpověď: “Aha, to je zajímavé. Měli bychom trénovat opravdu velké neuronové sítě.” Ta konverzace se stala Google Brain a systémem nevěry (pojmenovaným „částečně proto, že lidé nevěřili, že to bude fungovat”).
Výpočet na zadní straně obálky, který spustil TPU. Dean si uvědomil, že pokud by Google zavedl svůj nový vysoce kvalitní model rozpoznávání řeči a 100 milionů lidí by mluvilo se svými telefony 3 minuty denně, potřebovali by zdvojnásobit kapacitu všech Googlových datových center. Specializovaný hardware nebyl volitelný - byl existenčně nezbytný. TPU v1 přinesla zrychlení 15-30x ve srovnání s CPU/GPU a energetickou účinnost 30-80x. Článek je nyní nejcitovanější v 50leté historii ISCA.
Každý majorní průlom dostane jeden slide. Word2vec a objev, že směry vektorů jsou sémanticky smysluplné (king - man + woman = queen). Sekvenční modely pro překlad. Transformery dosahující 10-100x vyšší efektivnosti compute v porovnání s LSTM. Samo-supervizované učení na textu vytvářející “téměř nekonečné příklady pro trénování”. Vision Transformers dosahující nejlepších výsledků s 4-20x nižšímy výpočty. Řídké modely aktivující jen 1-5 % parametrů na jeden odhad. Chain-of-thought prompting. Destilace. RLHF.
Rámec pokroku je znepokojující. “Před třemi lety jsme byli opravdu nadšení, že jsme dosáhli 15% správnosti na úlohách z matematiky osmé třídy.” Ten benchmark GSM8K - slovní úlohy ze střední školy jako “Sean má pět hraček a na Vánoce dostal ještě dvě” - je nyní v podstatě vyřešen.
Klíčové poznatky
- Google Brain vznikl v mikrokuchyňce - Dean se potkal s Andrew Ng a rozhodl se “trénovat opravdu velké neuronové sítě”
- Systém nevěry: “matematicky špatný, ale fungoval” - Asynchronní trénování se 200 replikami modelů aktualizujícími sdílené parametry
- Papír o kočce (2012) - 10 M snímků z YouTube, bez dozoru učení, neurony se naučily koncept “kočky” bez popisků
- Směry Word2vec jsou sémantické - King - man + woman = queen; směry pro časy (minulost/budoucnost)
- Nezbytnost TPU - Zavedení lepšího rozpoznávání řeči by zdvojnásobilo Googlova datová centra
- TPUv1 - 15-30x rychlejší, 30-80x energeticky účinnější než CPU/GPU
- Transformery (2017) - 10-100x méně compute než LSTM pro stejnou přesnost; pozornost místo rekurence
- Řídké modely - Jen 1-5 % parametrů aktivováno na jeden odhad; Gemini to používá
- Chain of thought - Model dělá více výpočtů na jeden token “ukazováním své práce”
- Destilace - 3 % tréninkových dat se měkkými cíli odpovídá 100 % dat se tvrdými štítky
- Pathways - Jeden Python proces může adresovat 10 000 TPU zařízení v metropolitních oblastech
- Pokrok GSM8K - Před 3 lety 15% přesnosti na matematice 8. třídy; nyní v podstatě vyřešeno
Velký obrázek
Patnáct let skládajících se průlomů - od papíru o kočce přes transformery k řídkým modelům - vytvořilo moderní AI. Každý krok se zdál přírůstkový; dohromady jsou transformativní. Člověk, který vytvořil MapReduce, nyní řídí systémy, které řeší problémy, které se před třemi lety zdály nemožné.