Andrej Karpathy: Stvárame duchov, nie zvieratá
Perspektíva
Toto je Andrej Karpathy v najfilozofickejšej podobe - nevysvetľuje neurónové siete, ale zápasí s tým, čo vlastne stvárame. Rámovanie “duchovia, nie zvieratá” je provokatívne a dôležité.
Hlavný insight: LLM vznikli z fundamentálne odlišného optimalizačného procesu než biologická inteligencia. Zvieratá sú výsledkom evolúcie - prichádzajú s obrovským množstvom zakódovaného hardvéru. Zebra beží pár minút po narodení. To nie je reinforcement learning, to je milióny rokov evolúcie kódujúcej váhy do DNA mechanizmom, ktorému nerozumieme. LLM sú naopak trénované napodobňovaním internetových dokumentov. Sú to “éterické duchovné entity” - plne digitálne, napodobňujúce ľudí, začínajúce z úplne iného bodu v priestore možných inteligencií.
“Desaťročie agentov, nie rok agentov” je Karpatyho odmietnutie hype laboratórií. Je v AI 15 rokov, videl, ako predpovede opakovane zlyhávajú, a má kalibrované intuície. Problémy sú zvládnuteľné, ale ťažké. Kedy by ste skutočne najali Claude ako stážistu? Dnes nie, pretože jednoducho nefunguje dostatočne spoľahlivo. Tento rozdiel bude trvať desaťročie zavrieť.
Pre-training ako “mizerná evolúcia” je užitočný mentálny model. Evolúcia dáva zvieratám východiskový bod s vstavanými algoritmami a reprezentáciami. Pre-training robí niečo analogické, ale cez prakticky dosiahnuteľný proces - dopĺňanie vzorov na internetových dokumentoch. Zaujímavá nuansa: pre-training robí dve věci súčasne: (1) získava znalosti, a (2) naštartováva inteligenčné obvody pozorovaním algoritmických vzorov. Karpathy si myslí, že časť so znalosťami môže modely vlastne brzdiť - núti ich spoliehať sa príliš na memorovanie namiesto uvažovania.
Rozdiel v kompresii vysvetľuje veľa. Llama 3 ukladá približne 0.7 bitov na token zo svojho tréningového setu 15 biliónov tokenov. KV cache počas inferencie ukladá 320 kilobajtov na token - 35 miliónový rozdiel. Čokoľvek vo váhach je “hmlistá spomienka.” Čokoľvek v kontexte je pracovná pamäť, priamo prístupná. Toto vysvetľuje, prečo in-context learning pôsobí inteligentnejšie než to, čo je zapečené vo váhach.
Kľúčové poznatky
- “Duchovia, nie zvieratá” - LLM sú digitálne entity napodobňujúce ľudí, nie evolučné inteligencie so zakódovaným hardvérom
- Desaťročie agentov, nie rok - Súčasní agenti sú pôsobiví, ale kognitívne chýbajúci; spoľahliví “AI zamestnanci” sú 10 rokov ďaleko
- Pre-training je mizerná evolúcia - Prakticky dosiahnuteľný spôsob získania východiskových reprezentácií, ale veľmi odlišný od biologickej optimalizácie
- Znalosti môžu škodiť - Modely, ktoré sa menej spoliehajú na memorované znalosti a viac na uvažovanie, môžu byť lepšie na nové problémy
- Pracovná pamäť vs hmlistá spomienka - KV cache (kontext) je 35 miliónkrát viac informačne hustý než váhy na token
- In-context learning môže spúšťať interný gradient descent - Niektoré štúdie naznačujú, že attention vrstvy implementujú niečo ako optimalizáciu
- Chýbajúce časti mozgu - Transformer ≈ kortikálne tkanivo, reasoning traces ≈ prefrontálny kortex, ale mnoho štruktúr zostáva nepreskúmaných
- Skoré pokusy s agentmi boli predčasné - Universe projekt (2016) zlyhal, pretože modely nemali reprezentačnú silu; najprv sme potrebovali LLM
Veľký obraz
Nestvárame umelých ľudí - stvárame niečo úplne nové. LLM sú “duchovia”, ktorí vznikli z napodobňovania textu, nie “zvieratá” formované evolúciou. Pochopenie tohto rozdielu je zásadné pre budovanie systémov, ktoré dopĺňajú ľudskú inteligenciu namiesto jej slabého napodobovania.