Rozumejú LLM-y? Yann LeCun vs. Adam Brown z DeepMind

llmdebatametadeepmindporozumeniesvetove-modely

Dvaja z najväčších vedcov v oblasti AI si sadnú na otvorenú debatu o najviac spornej otázke v AI dnes: či tieto systémy naozaj niečo rozumejú?

Perspektíva

Táto debata kristalizuje základný filozofický a technický rozpor prebiehajúci v AI výskume práve teraz. Na jednej strane Adam Brown z DeepMind tvrdí, že LLM-y rozumejú - nie dokonale, ale skutočne. Na strane druhej Yann LeCun tvrdí, že ich porozumenie je “povrchné”, pretože nie je zakorenené v fyzickej realite. Nuancia medzi ich pozíciami odhaľuje oveľa viac ako ktorýkoľvek extrém.

Najodhaľujúcejší moment prichádza skoro, keď moderátor položí binárnu otázku: “Rozumejú LLM-y?” Brown hovorí áno. LeCun hovorí “čiastočne”. Gradient medzi binárnymi pozíciami je to, kde žije pravda.

Centrálny argument LeCuna je založený na teórii informácie a efektívnosti vzoriek. Poukazuje na to, že trénovanie konkurencieschopného LLM-u vyžaduje 30 triliónov tokenov - zhruba 10^14 bajtov textových dát. To je v podstate všetok voľne dostupný text na internete, predstavujúci pol milióna rokov ľudského čítania. Porovnajte to s vizuálnymi údajmi: tie isté 10^14 bajtov reprezentujú len 16 000 hodín videa - presne to, čo štvorročné dieťa videlo počas celého svojho bdieho života (za predpokladu 2MB/s cez zrakový nerv).

Ide nie len o objem dát. Ide o hustotu informácií a zakorenenie. Dieťa učiace sa fyziku nemusí čítať milióny opisov padajúcich predmetov. Vidí, ako veci padajú, púšťa veci, buduje intuitívne modely gravitácie, zotrvačnosti a kauzality prostredníctvom nepretržitej, vysokorozmernej zmyslušnej skúsenosti. LLM-y majú len jazyk - symbolickú kompresia reality, nie realitu samu.

Brown oponuje zásadným poznaním: efektívnosť vzoriek nie je všetko. Mačka sa naučí chodiť za týždeň; ľudské dieťa potrebuje rok. To neurobí mačku inteligentnejšou ako ľudské dieťa alebo LLM. Dôležitá je konečná schopnosť, nie rýchlosť učenia. A v takmer každej metrike, ktorá počíta - akumulovaných vedomostiach, rozsahu riešenia problémov, jazykovej sofistikovanosti - LLM-y už prekonali inteligenciu mačky a zástupcovia ukazujú ďaleko vylepšený výkon na špecifických úlohách oproti ľuďom.

Jeho dôkazy sú presvedčivé. Na International Mathematics Olympiad 2025 získal Googleov systém lepší výsledok ako všetci okrem najlepších tuctu ľudí na planéte. Toto sú úplne nové problémy, nie vyhľadávanie vzorcov v trénovacích údajoch. Systém kombinoval rôzne matematické nápady spôsobom, ako ich predtým nikdy nevidel. To nie je memorovanie - je to skutočné uvažovanie na zvýšenej úrovni abstrakcie.

Argument interpretovateľnosti je obzvlášť zaujímavý. Brown poukazuje na to, že máme vlastne lepší prístup k neurón LLM-u ako k ľudským neurónom. Môžeme ich zmraziť, prehrať ich, sondovať ich a sledovať presne, čo sa deje. Keď dáte LLM-u matematický problém, výskum mechanistickej interpretovateľnosti odhaľuje skutočné výpočtové obvody, ktoré sa tvoria na jej vyriešenie - obvody, ktoré sa model naučil budovať počas tréningu zameraného len na predpovedanie ďalšieho tokenu. Nememoroval si matematické odpovede; naučil sa ako robiť matematiku.

LeCun to nespochybňuje. Jeho kritika je jemnejšia. Hovorí áno, LLM-y môžu hromadiť vedomosti a dosahujú nadľudský výkon pri jazykových úlohách. Ale fundamentálne im chýba zakorenené, fyzické porozumenie, ktoré pochádza z zbodovaného učenia. Nemajú zdravý rozum spôsobom, ako ho rozumejú ľudia - intuitívnu fyziku toho, ako objekty interagujú, ako majú konania dôsledky, ako svet naozaj funguje nad rámec jeho jazykového popisu.

Šachová analógia je obojstranná. Brown má pravdu, že AlphaZero potreboval hrať oveľa viac hier ako ktorýkoľvek ľudský veľmajster, aby dosiahnul nadľudský výkon, ale efektívnosť vzoriek nezáležala - vyhral. LeCun má pravdu, že to dokazuje, že počítače “zlyhávajú v šachu” fundamentálnym spôsobom v porovnaní s efektivitou ľudského učenia, a tento rozdiel sa vzťahuje na to, keď hovoríme o všeobecnej inteligencii.

Skutočný nesúhlas nie je o súčasných schopnostiach LLM-u. Ide o to, čo je potrebné na dosiahnutie ľudskej úrovne alebo zvierat schopnej všeobecnej inteligencie. Pozícia LeCuna: nemôžete sa tam dostať iba textom. Potrebujete svetové modely trénované na nepretržitých, vysokorozmerných údajoch ako video. Potrebujete systémy, ktoré môžu predpovedať dôsledky v abstraktných reprezentačných priestoroch, nie len predpovedať ďalší token.

Jeho dôkazy sú zrejmé: máme LLM-y, ktoré prejdú skúškou pre právnikov a riešia vysokoškolskú matematiku, ale stále nemáme domáce roboty, ktoré sa naučia upratovať kuchyňu, alebo samojazdiace autá, ktoré sa naučia jazdiť za 20 hodín ako tínedžer. Metódy, ktoré fungujú na texte, sa nescaľujú na zbodovú inteligenciu.

Brownova pozícia je optimistickejšia ohľadom súčasnej trajektórie. LLM-y už demonštrujú vznikajúce schopnosti, ktoré neboli explicitne naprogramované - matematické uvažovanie, kreatívne riešenie problémov, prepracované konverzačné porozumenie. Ako škálujeme výpočet, údaje a architektonické inovácie, budú sa tieto schopnosti naďalej rozširovať.

Otázka vedomia je poučná. Obaja hovoria nie (alebo “pravdepodobne nie”). LeCun je absolútny: “rozhodne nie”. Brown váhavý: “pravdepodobne nie, pre vhodné definície vedomia.” Nikto z nich nemyslí, že sa nachádzame na pokraji apokalypsy - obaja hovoria, že “renesancia” je pravdepodobnejšia ako robotickí despoties.

To, čo robí túto debatu tak hodnotnou, je, že obaja vedci sú hlboko technickí, hlboko informovaní a fundamentálne nesúhlasia s tým, čo porozumenie vyžaduje. Lecunovo pozadie v počítačovom videní, splatovacích sieťach a teraz svetových modeloch formuje jeho presvedčenie, že inteligencia vyžaduje zakorenené, zbodované učenie. Brownova práca v DeepMind na systémoch ako AlphaGo a teraz Gemini demonštruje, čo je možné, keď zväčšujete vyhľadávanie vzorcov na bezprecedentné úrovne.

Čiara v Lecunove argumentácii - od jeho slávnej snímky “deep learning sucks” po jeho novú start-up AMI zameranú na svetové modely - je taká, že hlboké učenie a spätná propagácia sú úžasné, ale musíme ich kombinovať s fundamentálne odlišnými paradigmami učenia. Nie predpovedanie ďalšieho tokenu na texte, ale spoločné vstavané prediktívne architektúry (JEPA) trénované na videu a iných vysokošírokopásmových zmyslušných údajoch.

Otázka nie je binárna. LLM-y rozumejú - extrahujú vzorce, budujú interné reprezentácie, vykonávajú uvažovanie. Ale ich porozumenie je obmedzené chudobou ich trénovacieho signálu. Jazyk je komprimovaná, symbolická reprezentácia reality ľudstva. Je to stratová kompresia. Môžete z nej obnoviť veľa - viac ako väčšina ľudí očakávala - ale nemôžete obnoviť všetko.

Hlavné poznatky

  • Základný rozpor: Brown tvrdí, že LLM-y skutočne rozumejú prostredníctvom vyhľadávania vzorcov na zvýšenej úrovni abstrakcie; LeCun tvrdí, že ich porozumenie je povrchné bez fyzického zakorenenia
  • Medzera v hustote informácií: 10^14 bajtov trénujú LLM na všetkom textom internetu ALEBO vidový model na to, čo videlo 4-ročné dieťa (16 000 hodín vizuálnych údajov pri 2MB/s)
  • Efektívnosť vzoriek vs. konečná schopnosť: Mačky sa naučia chodiť rýchlejšie ako ľudia, ale to ich neurobí inteligentnejšími - dôležitý je finálny výkon
  • Matematické uvažovanie: Výsledky z IMO 2025 ukazujú LLM-y riešiace nové problémy na úrovni najlepších tuctu ľudí kombináciou konceptov, nie len vyhľadávaním vzorcov v trénovacích údajoch
  • Výhoda interpretovateľnosti: Máme lepší prístup k neurónom LLM-u ako k ľudským neurónom - môžeme zmraziť, prehrať a sledovať výpočtové obvody, ktoré sa tvoria počas riešenia problémov
  • Problém zakorenenia: LLM-y prejdú skúškami pre právnikov, ale stále nemáme roboty, ktoré sa naučia domáce úlohy, alebo samojazdiace autá, ktoré sa naučia jazdiť za 20 hodín ako tínedžri
  • Šachová analógia: AlphaZero potreboval viac hier ako ľudskí veľmajstri na dosiahnutie nadľudského výkonu - dokazuje tak “neefektívnosť vzoriek” ako aj “konečnú nadradnosť”
  • Zhoda na vedomí: Obaja vedci sa zhodujú, že LLM-y nie sú vedomé (alebo “pravdepodobne nie”) aj napriek debate o porozumení
  • Budúcnosť: Obaja predpovedajú “renesanciu” namiesto “apokalypsy” - nikto sa nebojí robotických despotov, obaja vidia transformačný pozitívny potenciál
  • Lecunova cesta vpred: Svetové modely trénované na vysokorozmerných nepretržitých údajoch (video) s použitím JEPA architektúr, nie len textového predpovedania ďalšieho tokenu
  • Mechanistická interpretovateľnosť: LLM-y spontánne rozvíjajú interné výpočtové obvody na riešenie matematických problémov, zatiaľ čo sa trénujú len na predpovedanie ďalšieho tokenu
  • Binárna pasca: Otázka “rozumejú oni” vyžaduje gradientovú odpoveď - Lecunovo “čiastočne” je presnejšie ako áno alebo nie

Veľký obrázok

Rozumejú LLM-y? “Čiastočne” je čestná odpoveď. Extrahujú vzorce a vykonávajú uvažovanie na zvýšenej úrovni abstrakcie, ale ich porozumenie je obmedzené tréningom na jazyku - stratovej kompresii reality ľudstva. Môžete obnoviť veľa z textu, ale nie fyzickú intuíciu. Preto máme modely, ktoré prejdú skúškami pre právnikov, ale nemáme roboty upratujúce kuchyne.