Rozumí LLM? Yann LeCun vs. Adam Brown z DeepMindu

llmdebatemetadeepmindunderstandingworld-models

Dva z nejvýznamnějších AI výzkumníků se usadí k upřímné debatě o nejdiskutovanější otázce dnešní AI: rozumí tyto systémy skutečně něčemu?

Perspektiva

Tato debata zhmotňuje základní filozofický a technický rozpor, který v současné výzkumné činnosti v oblasti AI probíhá. Na jedné straně Adam Brown z DeepMindu argumentuje, že LLM rozumí – ne dokonale, ale opravdu. Na druhé straně Yann LeCun tvrdí, že jejich rozumění je “povrchní”, protože není ukotveno v fyzické realitě. Nuance mezi jejich pozicemi odhalují mnohem více než kterýkoli extrém.

Nejzásvěcovější moment nastane brzy, když se moderátor ptá na binární otázku: “Rozumí LLM?” Brown říká ano. LeCun říká “částečně”. Ten gradient mezi binárními pozicemi je tam, kde žije pravda.

LeCunův centrální argument vychází z teorie informace a efektivnosti trénování. Poukazuje na to, že trénování konkurenceschopného LLM vyžaduje 30 trilionů tokenů – přibližně 10^14 bytů textových dat. To je prakticky všechny volně dostupné texty na internetu, představující půl milionu let čtení člověkem. Porovnejte to s vizuálními daty: těch stejných 10^14 bytů představuje jen 16 000 hodin videa – přesně to, co čtyřleté dítě vidělo během celého svého bdělého života (za předpokladu 2MB/s přenosem zrakovým nervem).

Nejde jenom o objem dat. Jde o informační hustotu a ukotvení. Dítě učící se fyziku nepotřebuje číst miliony popisů padajících objektů. Vidí, jak věci padají, sami věci pouští, budují intuitivní modely gravitace, setrvačnosti a kauzality através nepřetržité, vysokorozměrné senzorické zkušenosti. LLM má jen jazyk – symbolickou kompresi reality, ne samotnou realitu.

Brown odpoví zásadním poznatkem: efektivita trénování není všechno. Kočka se naučí chodit za týden; člověk potřebuje rok. To nečiní kočku chytřejší než člověka nebo LLM. Důležitá je konečná schopnost, ne rychlost učení. A v téměř každé metrice, která má význam – akumulované znalosti, rozsah řešení problémů, sofistikovanost jazyka – LLM již překonaly inteligenci kočky a tlačí se daleko za lidský výkon v konkrétních úkolech.

Jeho důkazy jsou přesvědčivé. Na mezinárodní matematické olympiádě 2025 systém od Google dosáhl lepšího výsledku než všichni kromě tuctu nejlepších lidí na planetě. Jde zcela o nové problémy, ne o shodu vzorů s tréninkovými daty. Systém kombinoval různé matematické myšlenky způsoby, které nikdy předtím neviděl. To není memorizace – je to skutečné uvažování na zvýšené úrovni abstrakce.

Argument týkající se interpretovatelnosti je zvláště zajímavý. Brown poukazuje na to, že máme vlastně lepší přístup k neuronům LLM než k neuronům lidským. Můžeme je zmrazit, přehrát, zkoumat a přesně sledovat, co se děje. Když si LLM podáte matematický problém, výzkum mechanické interpretovatelnosti odhaluje skutečné výpočetní obvody formující se k jeho řešení – obvody, které se model naučil vytvářet během trénování na předpověď dalšího tokenu. Nememoralizoval si matematické odpovědi; naučil se dělat matematiku.

LeCun toto nespochybňuje. Jeho kritika je jemnější. Říká, ano, LLM mohou akumulovat znalosti a podávat nadlidský výkon u jazykových úkolů. Ale zásadně postrádají ukotvené, fyzické rozumění, které pochází z vloženého učení. Nemají selský rozum tak, jak mu rozumí lidé – intuitivní fyziku toho, jak objekty vzájemně interagují, jak mají důsledky akce, jak svět skutečně funguje mimo jeho jazykový popis.

Analogie s šachem hraje obousměrně. Brown má pravdu, že AlphaZero musela hrát mnohem více her než kterýkoli lidský grandmaster, aby dosáhla nadlidského výkonu, ale efektivita trénování na tom nezáleželo – vyhrála. LeCun má pravdu, že to dokazuje, že počítače “selhávají v šachu” zásadně oproti efektivitě učení člověka, a tento rozdíl má důležitost, když mluvíme o obecné inteligenci.

Skutečný nesouhlas není o současných schopnostech LLM. Jde o to, co je potřeba k dosažení lidské úrovně nebo zvířecí úrovně obecné inteligence. LeCunova pozice: nemůžete se tam dostat jen prostřednictvím textu. Potřebujete modely světa trénované na nepřetržitých, vysokorozměrných datech jako video. Potřebujete systémy, které mohou předvídat důsledky v abstraktních reprezentačních prostorech, ne jen předvídat další token.

Jeho důkazy jsou markantní: máme LLM, které se dostaneme přes právnickou zkoušku a řeší vysokoškolskou matematiku, ale stále nemáme domácí roboty, které by se naučily uklidit kuchyň, nebo autonomní vozy, které by se naučily jezdit za 20 hodin jako teenager. Metody, které fungují pro text, se neměří na vloženou inteligenci.

Brownova pozice je optimističtější ohledně současné trajektorie. LLM již prokazuje vznikající schopnosti, které nebyly explicitně naprogramovány – matematické uvažování, tvůrčí řešení problémů, sofistikované porozumění konverzaci. Jak zvyšujeme výpočetní, data a architektonické inovace, tyto schopnosti se budou nadále rozšiřovat.

Otázka na vědomí je velmi vypovídající. Oba říkají ne (nebo “pravděpodobně ne”). LeCun je absolutní: “rozhodně ne.” Brown váhá: “pravděpodobně ne, pro vhodné definice vědomí.” Nikdo z nich nevěří, že jsme na prahu katastrofy – oba říkají, že “renesance” je pravděpodobnější než roboti vládcové.

Co dělá tuto debatu tak cennout, je to, že oba výzkumníci jsou hluboce technični, hluboce informovaní a zásadně se neshodují na tom, co rozumění vyžaduje. LeCunův základ v počítačovém vidění, konvolučních sítích a nyní modelech světa formuje jeho přesvědčení, že inteligence vyžaduje ukotvené, vložené učení. Brownova práce v DeepMindu na systémech jako AlphaGo a nyní Gemini ukazuje, co je možné, když zvyšujete shodu vzorů na bezprecedentní úrovně.

Červená nit v LeCunově argumentu – od jeho slavného snímku “hlubokého učení selhává” až po jeho nový startup AMI zaměřený na modely světa – je ta, že hlubokého učení a zpětného šíření jsou fantastické, ale musíme je kombinovat se zásadně odlišnými paradigmaty trénování. Ne předpovědi dalšího tokenu na textu, ale architektur prediktivního spojitého vložení (JEPA) trénované na videu a dalších vysokopásmových senzorických datech.

Otázka není binární. LLM rozumí – extraují vzory, budují vnitřní reprezentace, provádí uvažování. Ale jejich rozumění je omezeno chudostí jejich tréninkovího signálu. Jazyk je komprimovaná, symbolická reprezentace reality lidstva. Je to ztrátová komprese. Hodně z ní můžete obnovit – více než co očekávala většina lidí – ale nemůžete obnovit všechno.

Klíčové poznatky

  • Základní rozdíl: Brown argumentuje, že LLM skutečně rozumí prostřednictvím shody vzorů na zvýšené abstrakci; LeCun argumentuje, že jejich rozumění je povrchní bez fyzického ukotvení
  • Mezera v informační hustotě: 10^14 bytů trénuje LLM na všechny texty internetu NEBO model vidění na to, co vidělo čtyřleté dítě (16 000 hodin videa při 2MB/s)
  • Efektivita trénování vs. konečná schopnost: Kočky se naučí chodit rychleji než lidé, ale to je nečiní chytřejší – důležitý je konečný výkon
  • Matematické uvažování: Výsledky IMO 2025 ukazují LLM řešící nové problémy na úrovni nejlepšího tuctu lidí kombinováním konceptů, ne jen shodou vzorů tréninkovými daty
  • Výhoda interpretovatelnosti: Máme lepší přístup k neuronům LLM než k neuronům lidským – můžeme zmrazit, přehrát a sledovat výpočetní obvody formující se během řešení problémů
  • Problém ukotvení: LLM projdou právnickou zkouškou, ale stále nemáme roboty, které se naučí domácí práce, nebo autonomní vozy, které se naučí jezdit za 20 hodin jako teenageři
  • Analogie s šachem: AlphaZero potřebovala více her než lidští grandmastři k dosažení nadlidského výkonu – dokazuje “malou efektivitu trénování” i “konečnou nadřazenost”
  • Shoda na vědomí: Oba výzkumníci souhlasí, že LLM nejsou vědomé (nebo “pravděpodobně ne”) navzdory debatě o rozumění
  • Budoucí výhled: Oba předpovídají “renesanci” nad “apokalypsou” – ani se neobávají roboto vládců, oba vidí transformativní pozitivní potenciál
  • LeCunova cesta vpřed: Modely světa trénované na vysokorozměrných nepřetržitých datech (video) pomocí architektur JEPA, ne jen předpovědi dalšího tokenu na textu
  • Mechanická interpretovatelnost: LLM spontánně vyvíjejí vnitřní výpočetní obvody k řešení matematických problémů při trénování pouze na předpověď dalších tokenů
  • Binární past: Otázka “rozumí jim” vyžaduje odpověď se gradientem – LeCunovo “částečně” je přesnější než buď ano, nebo ne

Velký obrázek

Rozumí LLM? “Částečně” je čestná odpověď. Extraují vzory a provádějí uvažování na zvýšené abstrakci, ale jejich rozumění je omezeno tréninkem na jazyk – ztrátovou kompresí reality lidstva. Hodně z textu můžete obnovit, ale ne fyzickou intuici. Proto máme modely procházející právnickou zkouškou, ale žádné roboty čistící kuchyně.