Spolutvůrce Transformeru: 'Modely uvažování teprve začínají—očekávejte výrazné zlepšení za 1-2 roky'
Lukasz Kaiser, jediný autor článku o Transformeru, který stále pracuje jako inženýr v laboratoři, odhaluje, proč nové paradigma uvažování automatizuje počítačové úkoly dříve, než se očekávalo—a proč je úzkým hrdlem výpočetní výkon, ne výzkum.
Perspektiva
Lukasz Kaiser zaujímá unikátní pozici v historii AI: je spoluautorem článku z roku 2017 "Attention Is All You Need", který představil architekturu Transformer, a je jediným z osmi autorů, kteří se rozhodli zůstat inženýrem místo založení startupu. Nyní v OpenAI vedl výzkum, který vytvořil modely uvažování O1—což nazývá "novým paradigmatem" zásadně odlišným od škálování transformerů. Tento rozhovor nabízí vzácný pohled insajdera na to, kam AI skutečně směřuje.
O paradigmatu uvažování: "There was this transformer paradigm when we were scaling up transformers... But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it's only on this very steep path up." (Bylo tady paradigma transformeru, když jsme škálovali transformery... Ale existuje nové paradigma, kterým je uvažování, a to teprve začíná. Mám pocit, že toto paradigma je tak mladé, že je pouze na této velmi strmé cestě nahoru.) Kaiser rozlišuje mezi klesajícími výnosy z čistého škálování transformerů a nevyužitým potenciálem modelů uvažování, které podle něj "se učí z o řád menšího množství dat".
O tom, že nepřichází žádná AI zima: "I don't think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of." (Nemyslím si, že v tomto smyslu přichází nějaká zima. Pokud vůbec, může to mít velmi výrazné zlepšení v příštím roce nebo dvou—což je něco, čeho se skoro trochu bát.) Zatímco někteří spekulují o narazení na škálovací zeď, Kaiser vidí paradigma uvažování jako nabízející nový strmý vzestup s dostatkem prostoru.
O konečném úzkém hrdle: "That's the ultimate bottleneck. Like it's GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry." (To je to konečné úzké hrdlo. Jako jsou to GPU a energie. Myslím, že Sam v podstatě získává tolik, kolik je jen možné. A někteří lidé se obávají, jestli je budeme schopni použít. Já se neobávám.) Omezením není výzkumná kapacita nebo nápady—je to surový výpočetní výkon. Každé GPU, které mohou získat, bude produktivně využito.
O úkolech vs. pracích: "I believe reasoning models even currently are probably capable of doing most of them... these tasks are coming fast." (Věřím, že modely uvažování i v současnosti jsou pravděpodobně schopny dělat většinu z nich... tyto úkoly přicházejí rychle.) Kaiser objasňuje rozdíl: AI okamžitě nenahradí celé práce, ale počítačové úkoly—klikání, psaní, programování—jsou automatizovány nyní. "V průběhu měsíců" šlo kódovací AI z adekvátního na skutečně užitečné.
O mládí nového paradigmatu: "We've scaled it up a little bit but there could be way more scaling it up. There's way more research methods to make it better." (Škálovali jsme to trochu, ale mohlo by to být škálováno mnohem více. Existuje mnohem více výzkumných metod, jak to zlepšit.) Na rozdíl od škálování transformerů, které dosáhlo plató kvůli datovým omezením, paradigma uvažování sotva začalo. Kombinace větších základních modelů plus uvažování by mohla přinést složené zlepšení.
Klíčové poznatky
- Dvě paradigmata, různé trajektorie - Čisté škálování transformerů je omezeno daty; modely uvažování jsou na strmé vzestupné cestě s prostorem k růstu
- Počítačové úkoly první, fyzický svět později - Očekávejte rychlou automatizaci práce na obrazovce; robotika a fyzické úkoly budou trvat déle
- Kódování je varovný signál - Schopnosti AI v kódování šly z "v pořádku" na "skutečnou pomoc" za pouhé tři měsíce; "polovinu času lidé prostě požádají Codex, aby za ně kódoval jako první"
- Žádné AGI—ale záleží na tom? - Kaiser nemá rád termín AGI; důležitější je, že AI nyní může "pracovat hodiny a dělat něco užitečného"
- Kompromis mezi destilací a škálováním - OpenAI vyvažuje trénování co největších modelů s tím, aby byly dostatečně levné pro obsluhu 800M+ uživatelů
- Horizont 1-2 let pro výrazné zlepšení - Paradigma uvažování plus nová výpočetní infrastruktura by mohly brzy přinést dramatické skoky ve schopnostech
Velký obrázek
Kaiserovo rámování řeší zdánlivý rozpor mezi "AI pokrok se zpomaluje" a "AI pokrok se zrychluje"—mluví o různých paradigmatech. Čisté škálování transformerů dozrálo; modely uvažování teprve začínají. Pro organizace plánující adopci AI to naznačuje, že schopnosti dostupné za 12-24 měsíců mohou být dramaticky lepší než dnes, zejména pro úkoly, které těží z prodlouženého "času na přemýšlení". Éra AI, která může pracovat hodiny, ne sekundy, přichází rychleji, než většina očekává.


