Andrej Karpathy: Úvod do LLM pro velmi zaneprázdněné (Virální 30minutový výklad)

Andrej Karpathy
lecturetutorialtrainingresearch

Perspektiva

Toto je definitivní úvod do velkých jazykových modelů - Karpathy znovu nahrál svou virální 30minutovou přednášku na YouTube poté, co originál nebyl zaznamenán. Pokud rozumíte této přednášce, rozumíte základům.

“Velký jazykový model je jen dva soubory.” Soubor parametrů (140GB pro Llama 2 70B - 70 miliard parametrů × 2 bajty každý jako float16) a spouštěcí soubor (~500 řádků C bez závislostí). Vezměte tyto dva soubory, zkompilujte je a můžete s modelem komunikovat offline na MacBooku. To je celý balík.

Trénování je komprese. Vezměte 10TB internetového textu, 6000 GPU na 12 dní (~2M dolarů) a zkomprimujte to do 140GB parametrů. To je zhruba 100x komprese - ale jedná se o ztrátovou kompresi. Model má “gestalt” trénovacích dat, ne shodnou kopii. “Je to trochu jako zip soubor internetu.”

Reverse curse ukazuje, jak zvláštní je toto vědění. GPT-4 ví, že Tomova Cruisova matka je Mary Lee Pfeiffer. Ale když se zeptáte “Kdo je Mary Lee Pfeiffer syn?” neví to. “Toto vědění je zvláštní a trochu jednorozměrné. Musíte se ptát z určitého směru.”

“LLM jsou převážně nečitelné artefakty.” Známe přesnou architekturu, každou matematickou operaci. Ale nevíme, co dělá 100 miliard parametrů. “Můžeme měřit, že se zlepšuje v předpovídání dalšího slova, ale nevíme, jak tyto parametry spolupracují na její provádění.” Na rozdíl od auta, kde chápeme všechny součásti.

Předtrénování vs fine-tuning. Předtrénování: masivní množství, nižší kvalita internetových dat, vytváří vědomosti. Fine-tuning: menší množství (~100K příkladů), velmi vysoká kvalita Q&A páry, dává modelu jeho “asistentský” formát. Předtrénování je nákladné (měsíce, miliony dolarů, jednou ročně). Fine-tuning je levný (každodenní iterace jsou možné).

RLHF používá porovnávání, protože porovnávání je jednodušší než generování. Psaní haiku je těžké. Vybírání nejlepšího haiku z několika možností je jednodušší. Fine-tuning ve fázi 3 to využívá zesílením učení z lidské zpětné vazby.

Scaling laws jsou klíčová myšlenka. Výkon je “pozoruhodně hladká, dobře se chová, předvídatelná funkce pouze dvou proměnných: N (parametry) a D (trénovací data).” Žádné známky dosažení maxima. “Algoritmický pokrok není nutný - můžeme získat výkonnější modely zdarma školením větších modelů déle.”

Klíčové poznatky

  • Dva soubory - Parametry (140GB pro model 70B) + run.c (~500 řádků)
  • 100x ztrátová komprese - 10TB internet → 140GB parametrů
  • Předpověď dalšího slova - Základní úkol; nutí model učit se o světě
  • Reversal curse - Vědění je jednorozměrné; směr má význam
  • “Převážně nečitelné” - Známe architekturu, ale ne to, co parametry dělají
  • Předtrénování = vědomosti - Nákladné, měsíce, data v měřítku internetu
  • Fine-tuning = zarovnání - Levné, každodenní možné, 100K kvalitních příkladů
  • RLHF - Porovnávání je jednodušší než generování; optimalizace ve fázi 3
  • Scaling laws - Výkon předvídatelný z parametrů × dat; žádné plató
  • Otevřené vs uzavřené - Uzavřené (GPT-4, Claude) fungují lépe; otevřené (Llama) jsou dosažitelné
  • “Halucinace” - Model neví, co si zapamatoval vs. vygeneroval

Větší obraz

LLM je 100x komprimovaná verze lidských vědomostí, která se vejde na přenosný počítač. Postavili jsme ji, můžeme ji spustit, ale ve skutečnosti nerozumíme tomu, jak 100 miliard parametrů spolupracuje na vytváření inteligence. Jsme v podivné pozici, kdy jsme vytvořili něco mocného, aniž bychom to plně pochopili.