Yann LeCun o AMI, svetových modeloch a prečo LLM nestačia
Jeden z otcov hlbokého učenia stavia svoju ďalšiu desať rokov na inej ceste ako zvyšok priemyslu.
Perspektíva
Táto konverzácia s Yann LeCunom je majstrovským kurzom kontrárneho myslenia podporovaného desaťročiami technickej intuície. Zatiaľ čo priemysel nalieha miliardy do škálovania LLM, LeCun spúšťa AMI (Advanced Machine Intelligence) s radikálne odlišnou tézou: nemôžete dosiahnuť umelú inteligenciu na úrovni človeka iba pomocou textu.
Matematika je jasná. Trénovanie konkurencieschopného LLM vyžaduje 30 biliónov tokenov - približne 10^14 bajtov textových dát. To sú v podstate všetky voľne dostupné texty na internete. Porovnajte to s videom: rovnakých 10^14 bajtov predstavuje iba 15 000 hodín videa pri 2MB/s. To je 30 minút nahrávok z YouTube. To je to, čo videlo päťročné dieťa počas celého svojho bdelého života.
Argument LeCuna nie je len o efektivnosti dát - ide o hustotu informácií a redundanciu. LLM potrebujú masívne počty parametrov, pretože v podstate memorujú izolované fakty z textu. Svetové modely trénované na videu sa naučia abstraktné reprezentácie fyziky, kauzality a dynamiky. Redundancia vo vizuálnych dátach nie je chyba - je to, čo umožňuje učenie.
To, čo robí túto konverzáciu obzvlášť cennou, je historický oblúk. LeCun prejde svojou 20-ročnou cestou od redkých autokódovalov cez Siamesové siete k kontrastívnemu učeniu k JEPA. Každá iterácia riešila konkrétny problém: ako trénovať systém, aby sa naučil užitočné abstraktné reprezentácie bez pádu do triviálnych riešení?
Odpoveď, na ktorú dospel: Joint Embedding Predictive Architectures (JEPA). Namiesto predikcie každého pixelu (čo je nemožné pre nedeterministické budúcnosti) predikujete v priestore abstraktnej reprezentácie. Eliminujete všetky nepredvídateľné detaily - šum, irelevantné textúry, kvantovú neistotu - a zameriavate sa na to, čo je dôležité pre plánovanie.
Načasovanie AMI je zámerné. Keď Meta, Google a ďalšie veľké laboratória „uzavrú sa” a stávajú sa tajomnejšie, LeCun zdvojnásobuje svoj záväzok voči otvorenej výskume. Jeho argument je praktický: nemôžete to nazývať výskumom, ak to nepublikujete, pretože sa len oklamete interným nadšením. Vedci potrebujú externú validáciu a prielomu si vyžadujú slobodu publikovania.
Stratégia produktu je ambiciózna, ale pragmatická. AMI bude publikovať upstream výskum a zároveň budovať skutočné produkty okolo svetových modelov a systémov plánovania. Sázka je, že agentované systémy založené na LLM „naozaj nefungujú veľmi dobre”, pretože im chýba schopnosť predpovedať následky a plánovať v priestoroch abstraktnej reprezentácie.
Jeden technický detail ukrytý v konverzácii je obzvlášť udivujúci: súčasné kontrastívne metódy (ako tie, ktoré LeCun stanovil v roku 2005-2006) sa zastavujú okolo 200 dimenzií v ich naučených reprezentáciách, dokonca aj na ImageNete. To je strop. Nedávne pokroky ako Barlow Twins, VICReg a SigReg (súčasť systému LJEPA) tento limit prekračujú maximalizáciou obsahu informácií namiesto iba použitia kontrastívnej straty.
Analógia CFD je dokonalá: nesimulujeme prietok vzduchu okolo lietadla modelovaním jednotlivých molekúl, ešte menej kvantových polí. Používame abstraktné reprezentácie na správnej úrovni granularity. To je to, čo musia urobiť svetové modely - nie simulovať každý detail, ale naučiť sa správne abstrakcie na plánovanie.
Kľúčové poznatky
- Téza AMI: Umelá inteligencia na úrovni človeka vyžaduje svetové modely trénované na vysokorozmerne spojitých dátach (videa), nie iba text
- Priepasť v efektivnosti dát: 10^14 bajtov trénuje LLM na všetkom internetovom texte ALEBO model videnia na 15 000 hodinách videa (30 minút YouTube)
- Architektúra JEPA: Predpovedať v priestore abstraktnej reprezentácie, nie v pixelovom priestore - eliminuje nepredvídateľné detaily a zachováva štruktúru
- Stratégia výskumu: AMI bude publikovať otvorene, pretože „nemôžete to nazývať výskumom, pokiaľ to nepublikujete” - interné nadšenie vytvára ilúzie
- Technický vývoj: Od kontrastívneho učenia (2005) k VICReg/SigReg (2024) - presahuje strop 200 dimenzií
- Požiadavka plánovania: Inteligencia potrebuje predikciu následkov a optimalizáciu, nie iba porovnávanie vzorov
- Kritika priemyslu: Veľké laboratória (Google, Meta, OpenAI) stávajú sa uzavretejšie napriek historickým výhodám otvoreného výskumu
- Viera v produkt: Svetové modely pre systémy plánovania, ktoré prekonávajú agentov založených na LLM v spoľahlivosti a efektivnosti vzoriek
Veľký obrázok
Nositeľ Turingovej ceny stavia svoju ďalšiu desať rokov na teze, že umelá inteligencia iba s textom nemôže dosiahnuť inteligenciu na úrovni človeka. Ak má pravdu, trilióny dolárov investícií priemyslu do LLM budujú nástroje, nie mysli - a skutočná cesta k AGI prechádza videom, svetovými modelmi a naučenou fyzikou.