Andrej Karpathy: Úvod do LLM pre zaneprázdnených (virálny 30-minútový výklad)
Perspektíva
Toto je definitívny úvod do veľkých jazykových modelov - Karpathy znovu nahrával svoju virálnu 30-minútovú prednášku pre YouTube po tom, ako originál nebol zachytený. Ak porozumiete tejto prednáške, rozumiete základom.
“Veľký jazykový model sú len dva súbory.” Súbor s parametrami (140GB pre Llama 2 70B - 70 miliárd parametrov × 2 bajty každý ako float16) a run súbor (~500 riadkov C bez závislostí). Vezmite tieto dva súbory, skompilujte a môžete sa s modelom rozprávať offline na MacBooku. To je celý balík.
Trénovanie je kompresia. Vezmite 10TB internetového textu, 6 000 GPU na 12 dní (~2M$) a skomprimujte to do 140GB parametrov. To je približne 100x kompresia - ale je to stratová kompresia. Model má “gestalt” trénovacích dát, nie identickú kópiu. “Je to akýsi zip súbor internetu.”
Reversal curse ukazuje, aké zvláštne tieto znalosti sú. GPT-4 vie, že matka Toma Cruisa je Mary Lee Pfeiffer. Ale spýtajte sa “Kto je syn Mary Lee Pfeiffer?” a nevie to. “Tieto znalosti sú zvláštne a akosi jednodimenzionálne. Musíte sa pýtať z určitého smeru.”
“LLM sú väčšinou neprehľadné artefakty.” Poznáme presnú architektúru, každú matematickú operáciu. Ale nevieme, čo robí tých 100 miliárd parametrov. “Vieme zmerať, že sa zlepšuje v predikcii ďalšieho slova, ale nevieme, ako tieto parametre spolupracujú pri vykonávaní toho.” Na rozdiel od auta, kde rozumieme všetkým častiam.
Pre-training vs fine-tuning. Pre-training: obrovské množstvo, nižšia kvalita internetových dát, buduje znalosti. Fine-tuning: menšie množstvo (~100K príkladov), veľmi vysoká kvalita dvojíc otázok a odpovede, dáva modelu formát “asistenta”. Pre-training je drahý (mesiace, milióny dolárov, raz za rok). Fine-tuning je lacný (denne možné iterácie).
RLHF používa porovnávania, pretože porovnávať je jednoduchšie ako generovať. Napísať haiku je ťažké. Vybrať najlepšie haiku z viacerých možností je jednoduchšie. Stage 3 fine-tuning to využíva pomocou reinforcement learningu z ľudskej spätnej väzby.
Scaling laws sú kľúčovým poznatkom. Výkon je “pozoruhodne plynulá, dobre sa správajúca, predvídateľná funkcia iba dvoch premenných: N (parametre) a D (trénovacie dáta).” Žiadne známky zastavenia. “Algoritmický pokrok nie je potrebný - môžeme získať výkonnejšie modely zadarmo tým, že budeme trénovať väčšie modely dlhšie.”
Kľúčové poznatky
- Dva súbory - Parametre (140GB pre 70B model) + run.c (~500 riadkov)
- 100x stratová kompresia - 10TB internet → 140GB parametre
- Predikcia ďalšieho slova - Základná úloha; núti učenie sa o svete
- Reversal curse - Znalosti sú jednodimenzionálne; smer je dôležitý
- “Väčšinou neprehľadné” - Poznáme architektúru, ale nie to, čo robia parametre
- Pre-training = znalosti - Drahý, mesiace, dáta v internetovej mierke
- Fine-tuning = alignment - Lacný, denne možný, 100K kvalitných príkladov
- RLHF - Porovnávať je jednoduchšie ako generovať; stage 3 optimalizácia
- Scaling laws - Výkon predvídateľný z parametrov × dáta; žiadne plató
- Open vs closed - Closed (GPT-4, Claude) fungujú lepšie; open (Llama) doháňateľné
- “Halucinácia” - Model nevie, čo si zapamätal verzus vygeneroval
Veľký obraz
LLM je 100x komprimovaná verzia ľudských znalostí, ktorá sa zmestí na laptop. Postavili sme ho, môžeme ho spustiť, ale v skutočnosti nerozumieme tomu, ako 100 miliárd parametrov spolupracuje na vytváraní inteligencie. Sme v zvláštnej pozícii, keď sme vytvorili niečo mocné predtým, ako sme tomu plne porozumeli.