Yann LeCun o AMI, svetových modeloch a prečo LLM nestačia

world-modelsjeparesearchstartupmetadeepmind

Jeden z otcov hlbokého učenia stavia svoju ďalšiu desať rokov na inej ceste ako zvyšok priemyslu.

Perspektíva

Táto konverzácia s Yann LeCunom je majstrovským kurzom kontrárneho myslenia podporovaného desaťročiami technickej intuície. Zatiaľ čo priemysel nalieha miliardy do škálovania LLM, LeCun spúšťa AMI (Advanced Machine Intelligence) s radikálne odlišnou tézou: nemôžete dosiahnuť umelú inteligenciu na úrovni človeka iba pomocou textu.

Matematika je jasná. Trénovanie konkurencieschopného LLM vyžaduje 30 biliónov tokenov - približne 10^14 bajtov textových dát. To sú v podstate všetky voľne dostupné texty na internete. Porovnajte to s videom: rovnakých 10^14 bajtov predstavuje iba 15 000 hodín videa pri 2MB/s. To je 30 minút nahrávok z YouTube. To je to, čo videlo päťročné dieťa počas celého svojho bdelého života.

Argument LeCuna nie je len o efektivnosti dát - ide o hustotu informácií a redundanciu. LLM potrebujú masívne počty parametrov, pretože v podstate memorujú izolované fakty z textu. Svetové modely trénované na videu sa naučia abstraktné reprezentácie fyziky, kauzality a dynamiky. Redundancia vo vizuálnych dátach nie je chyba - je to, čo umožňuje učenie.

To, čo robí túto konverzáciu obzvlášť cennou, je historický oblúk. LeCun prejde svojou 20-ročnou cestou od redkých autokódovalov cez Siamesové siete k kontrastívnemu učeniu k JEPA. Každá iterácia riešila konkrétny problém: ako trénovať systém, aby sa naučil užitočné abstraktné reprezentácie bez pádu do triviálnych riešení?

Odpoveď, na ktorú dospel: Joint Embedding Predictive Architectures (JEPA). Namiesto predikcie každého pixelu (čo je nemožné pre nedeterministické budúcnosti) predikujete v priestore abstraktnej reprezentácie. Eliminujete všetky nepredvídateľné detaily - šum, irelevantné textúry, kvantovú neistotu - a zameriavate sa na to, čo je dôležité pre plánovanie.

Načasovanie AMI je zámerné. Keď Meta, Google a ďalšie veľké laboratória „uzavrú sa” a stávajú sa tajomnejšie, LeCun zdvojnásobuje svoj záväzok voči otvorenej výskume. Jeho argument je praktický: nemôžete to nazývať výskumom, ak to nepublikujete, pretože sa len oklamete interným nadšením. Vedci potrebujú externú validáciu a prielomu si vyžadujú slobodu publikovania.

Stratégia produktu je ambiciózna, ale pragmatická. AMI bude publikovať upstream výskum a zároveň budovať skutočné produkty okolo svetových modelov a systémov plánovania. Sázka je, že agentované systémy založené na LLM „naozaj nefungujú veľmi dobre”, pretože im chýba schopnosť predpovedať následky a plánovať v priestoroch abstraktnej reprezentácie.

Jeden technický detail ukrytý v konverzácii je obzvlášť udivujúci: súčasné kontrastívne metódy (ako tie, ktoré LeCun stanovil v roku 2005-2006) sa zastavujú okolo 200 dimenzií v ich naučených reprezentáciách, dokonca aj na ImageNete. To je strop. Nedávne pokroky ako Barlow Twins, VICReg a SigReg (súčasť systému LJEPA) tento limit prekračujú maximalizáciou obsahu informácií namiesto iba použitia kontrastívnej straty.

Analógia CFD je dokonalá: nesimulujeme prietok vzduchu okolo lietadla modelovaním jednotlivých molekúl, ešte menej kvantových polí. Používame abstraktné reprezentácie na správnej úrovni granularity. To je to, čo musia urobiť svetové modely - nie simulovať každý detail, ale naučiť sa správne abstrakcie na plánovanie.

Kľúčové poznatky

  • Téza AMI: Umelá inteligencia na úrovni človeka vyžaduje svetové modely trénované na vysokorozmerne spojitých dátach (videa), nie iba text
  • Priepasť v efektivnosti dát: 10^14 bajtov trénuje LLM na všetkom internetovom texte ALEBO model videnia na 15 000 hodinách videa (30 minút YouTube)
  • Architektúra JEPA: Predpovedať v priestore abstraktnej reprezentácie, nie v pixelovom priestore - eliminuje nepredvídateľné detaily a zachováva štruktúru
  • Stratégia výskumu: AMI bude publikovať otvorene, pretože „nemôžete to nazývať výskumom, pokiaľ to nepublikujete” - interné nadšenie vytvára ilúzie
  • Technický vývoj: Od kontrastívneho učenia (2005) k VICReg/SigReg (2024) - presahuje strop 200 dimenzií
  • Požiadavka plánovania: Inteligencia potrebuje predikciu následkov a optimalizáciu, nie iba porovnávanie vzorov
  • Kritika priemyslu: Veľké laboratória (Google, Meta, OpenAI) stávajú sa uzavretejšie napriek historickým výhodám otvoreného výskumu
  • Viera v produkt: Svetové modely pre systémy plánovania, ktoré prekonávajú agentov založených na LLM v spoľahlivosti a efektivnosti vzoriek

Veľký obrázok

Nositeľ Turingovej ceny stavia svoju ďalšiu desať rokov na teze, že umelá inteligencia iba s textom nemôže dosiahnuť inteligenciu na úrovni človeka. Ak má pravdu, trilióny dolárov investícií priemyslu do LLM budujú nástroje, nie mysli - a skutočná cesta k AGI prechádza videom, svetovými modelmi a naučenou fyzikou.