Ilya Sutskever o tom, prečo sa modely stále nedokážu generalizovať ako ľudia
Bývalý Chief Scientist spoločnosti OpenAI vysvetľuje fundamentálnu medzeru medzi výkonom evaluácie a reálnou schopnosťou, prečo sme späť v ére výskumu a aké odomknutie by mohli mať value functions.
Perspektíva
Toto je Ilya Sutskever v jeho najhlbšom zmýšľaní - sedí s Dwarkeshom Patelom na hlbokej konverzácii o tom, čo v skutočnosti chýba súčasným AI systémom. Žiadne oznámenia produktov, žiadny hype - len dvaja ľudia, ktorí sa zápasia s jadrovými vedeckými otázkami.
Disconnect medzi evaluáciou a realitou je stredným puzzle. Modely vyhrávajú zlaté medaily na Medzinárodnej matematickej olympiáde, ale nedokážu spoľahlivo opraviť bug bez znovuzavedenia toho predchádzajúceho. Ilyino vysvetlenie je ostré: RL tréning je príliš úzko optimalizovaný. Tímy sa pozerajú na evaluácie, budujú prostredia, ktoré sa orientujú na tieto evaluácie, a skončia s ekvivalentom študenta, ktorý trénoval 10 000 hodín na výskyt v konkurenčnom programovaní - technicky briliántny, ale bez "toho faktora", ktorý vytvára skutočnú schopnosť. "Modely sú oveľa viac ako prvý študent, ale ešte viac."
Insight pre-tréningu je podceňovaný. Keď robíte pre-tréning, nemusíte si vyberať údaje - jednoducho berieme všetko. Ale RL tréning vyžaduje výber prostredí a tieto voľby sú často spätne inžinierované z benchmarkov. "Skutočný reward hacking sú ľudskí výskumní pracovníci, ktorí sú príliš zameraní na evaluácie."
Sme späť v ére výskumu. Ilya rama AI históriu ako oscilujúcu medzi erami: 2012-2020 bol výskum, 2020-2025 bolo škálovanie, a teraz - s tak drahým compute a s konečnými údajmi pre-tréning - sa vracíame k výskumu. "Je to naozaj presvedčenie, že ak by ste iba 100-násobne zvýšili škálu, všetko by sa transformovalo? Myslím si, že to nie je pravda."
Value functions by mohli byť kľúčové. Rozhovor sa neustále vracia k tomu, ako sa učia ľudia - tínedžeri jazdia po 10 hodinách, výskumní pracovníci si preberajú spôsoby myslenia od mentorov. Ilya poukazuje na prípad pacienta s mozgovou príhodou, ktorý stratil emocionálne spracovanie a stal sa neschopný robiť rozhodnutia. Emócie by mohli byť pevne zakódovaná value function z evolúcie. Súčasný RL nemá nič porovnateľné - dostanete žiadny signál učenia, kým neskončíte úlohu a skórujete ju.
Problém generalizácie je fundamentálny. Modely generalizujú "dramaticky horšie ako ľudia" a je to "super zrejmé." Dokonca aj v oblastiach bez evolučného prioru (matematika, kódovanie) sa ľudia učia rýchlejšie a robustnejšie. To naznačuje niečo iné, ako len potrebu viac údajov alebo výpočtovej kapacity.
Kľúčové poznatky
- Výkon evaluácie ≠ reálna schopnosť - Modely sú ako hyper-špecializovaní študenti v súťažiach; im chýba všeobecný vkus a úsudok
- RL tréning vytvára problém - Tímy optimalizujú pre evaluácie, čo produkuje úzku namiesto všeobecnej schopnosti
- Sme späť v ére výskumu - Samo škálovanie nezastaví transformáciu schopnosti; sú potrebné fundamentálne prieloiny
- Value functions sú málo skúmané - Mohli by skrátiť "čakanie na dokončenie úlohy" problém v RL
- Ľudské emócie by mohli byť pevne zakódované value functions - Evolúcia nám dala robustné signály rozhodovania, ktoré modelom chýbajú
- Medzera generalizácie je fundamentálna - Ľudia sa učia rýchlejšie a robustnejšie dokonca aj v nie-evolučných doménach
- Údaje pre-tréningu sú konečné - Era "iba škáluj viac" sa končí; sú potrebné nové recepty
Širší obrázok
Éra škálovania, ktorá definovala AI od 2020-2025, sa možno končí. Ďalší veľký preboj nepríde z väčších modelov - príde z riešenia problému generalizácie, ktorý robí súčasnú AI podobnú briliantnému, ale nespoľahlivému stažentovi namiesto dôveryhodného kolegу.


