Yann LeCun o AMI, world modelech a proč LLM nejsou dostačující
Jeden z otců hlubokého učení sází svůj příští dekádu na jinou cestu než zbytek průmyslu.
Perspektiva
Tento rozhovor s Yannem LeCunem je mistřovou třídou kontrarianního myšlení podloženého desítkami let technické intuice. Zatímco průmysl vynakládá miliardy na škálování LLM, LeCun spouští AMI (Advanced Machine Intelligence) s radikálně odlišnou tezí: nelze dosáhnout inteligence na úrovni člověka pouze pomocí textu.
Matematika je jasná. Trénování konkurenceschopného LLM vyžaduje 30 bilionů tokenů - zhruba 10^14 bajtů textových dat. To je v podstatě veškerý volně dostupný text na internetu. Porovnejte to s videem: těch stejných 10^14 bajtů představuje pouhých 15 000 hodin videa při 2MB/s. To jsou 30 minut nahrávání YouTube. To je vše, co 4leté dítě vidělo za svůj celý život.
LeCunův argument není jen o efektivnosti dat - jde o hustotu informací a redundanci. LLM potřebují masivní počet parametrů, protože v podstatě memorují izolované fakta z textu. World modely trénované na videu se učí abstraktní reprezentace fyziky, kauzality a dynamiky. Redundance ve vizuálních datech není chyba - je to, co umožňuje učení.
To, co dělá tento rozhovor zvláště cenným, je historický oblouk. LeCun prochází svou 20letou cestu od řídkých autoenkoderů přes Siamesovské sítě k contrastive learningu a JEPA. Každá iterace řešila konkrétní problém: jak natrénovat systém, aby se naučil užitečné abstraktní reprezentace bez zhroucení na triviální řešení?
Odpověď, na kterou se sblížil: Joint Embedding Predictive Architectures (JEPA). Místo předpovídání každého pixelu (což je nemožné pro nedeterministické budoucnosti) předpovídáte v prostoru abstraktní reprezentace. Eliminujete všechny nepředvídatelné detaily - šum, irrelevantní textury, kvantovou nejistotu - a zaměřujete se na to, co je důležité pro plánování.
Načasování AMI je záměrné. Jak se Meta, Google a další velké laboratoře „zavírají” a stávají se tajnějšími, LeCun zdvojnásobuje otevřený výzkum. Jeho argument je praktický: nelze to nazývat výzkumem, pokud nepublikujete, protože se sami oklamete interním hypem. Vědci potřebují externí validaci a průlomy vyžadují svobodu publikování.
Strategie produktu je ambiciózní, ale pragmatická. AMI bude publikovat upstream research a současně budovat skutečné produkty kolem world modelů a plánovacích systémů. Sázka spočívá v tom, že agentické systémy založené na LLM „opravdu nefungují příliš dobře”, protože jim chybí schopnost předvídat důsledky a plánovat v prostorech abstraktní reprezentace.
Jeden technický detail ukrytý v rozhovoru je zvláště nápadný: současné contrastive metody (jako ty, které LeCun vymyslel v 2005-2006) maximalně dosahují asi 200 dimenzí v jejich naučených reprezentacích, dokonce i na ImageNet. To je strop. Nedávné pokroky jako Barlow Twins, VICReg a SigReg (součást LJEPA systému) překračují tento limit maximalizací obsahu informací spíše než jen pomocí contrastive loss.
Analogie CFD je dokonalá: nenanomujeme proudění vzduchu kolem letadla simulací jednotlivých molekul, natož kvantových polí. Používáme abstraktní reprezentace na správné úrovni granularity. To je to, co world modely potřebují dělat - ne simulovat každý detail, ale naučit se správné abstrakce pro plánování.
Hlavní poznatky
- Teze AMI: Inteligence na úrovni člověka vyžaduje world modely trénované na vysokorozměrných spojitých datech (videu), ne pouze textu
- Mezerou v efektivnosti dat: 10^14 bajtů trénuje LLM na všem internetovém textu NEBO model vidění na 15 000 hodinách videa (30 minut YouTube)
- Architektura JEPA: Předpovídejte v prostoru abstraktní reprezentace, ne v pixelovém prostoru - eliminuje nepředvídatelné detaily a zachovává strukturu
- Strategie výzkumu: AMI bude publikovat otevřeně, protože „nelze to nazývat výzkumem, pokud nepublikujete” - interní hype vytváří iluzi
- Technologická evoluce: Od contrastive learningu (2005) k VICReg/SigReg (2024) - překonávání stropu 200 dimenzí
- Požadavek plánování: Inteligence potřebuje predikci důsledků + optimalizaci, ne jen extrakci vzorů
- Kritika průmyslu: Velké laboratoře (Google, Meta, OpenAI) se uzavírají, navzdory historickým výhodám otevřeného výzkumu
- Vize produktu: World modely pro plánovací systémy, které překonávají agenty založené na LLM při spolehlivosti a efektivnosti vzorků
Širší obrázek
Držitel Turingovy ceny sází svůj příští dekádu na tezi, že umělá inteligence pouze na bázi textu nemůže dosáhnout inteligence na úrovni člověka. Pokud má pravdu, trilionové investice průmyslu do LLM budují nástroje, ne mysli - a skutečná cesta k AGI vede přes video, world modely a naučenou fyziku.