Spolutvorca Transformera: 'Modely uvažovania len začínajú—očakávajte výrazné zlepšenie o 1-2 roky'
Perspektíva
Lukasz Kaiser zastáva jedinečnú pozíciu v histórii AI: je spoluautorom papera z roku 2017 “Attention Is All You Need”, ktorý predstavil architektúru Transformer, a je jediným z ôsmich autorov, ktorý sa rozhodol zostať inžinierom namiesto založenia startupu. Teraz v OpenAI viedol výskum, ktorý priniesol modely uvažovania O1—to, čo nazýva “novou paradigmou”, zásadne odlišnou od škálovania transformerov. Tento rozhovor ponúka vzácny pohľad zvnútra na to, kam sa AI skutočne uberá.
O paradigme uvažovania: “There was this transformer paradigm when we were scaling up transformers… But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it’s only on this very steep path up.” (Bola tu paradigma transformerov, keď sme škálovali transformery… Ale je tu nová paradigma, ktorou je uvažovanie, a tá len začína. Mám pocit, že táto paradigma je taká mladá, že je len na tejto veľmi strmej ceste nahor.) Kaiser rozlišuje medzi klesajúcimi výnosmi pri čistom škálovaní transformerov a nevyužitým potenciálom modelov uvažovania, o ktorých hovorí, že “sa učia z o rád menej dát.”
O tom, že žiadna AI zima neprichádza: “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (Nemyslím si, že v tomto zmysle prichádza nejaká zima. Ak vôbec niečo, môže mať dokonca veľmi výrazné zlepšenie v nasledujúcich jednom až dvoch rokoch—čo je niečo, z čoho sa treba takmer trochu báť.) Zatiaľ čo niektorí špekulujú o narazení na škálovacie steny, Kaiser vidí paradigmu uvažovania ako ponúkajúcu nový strmý výstup s dostatkom priestoru.
O konečnom úzkom hrdle: “That’s the ultimate bottleneck. Like it’s GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry.” (To je konečné úzke hrdlo. Ako sú to GPU a energia. Myslím, že Sam v podstate získava toľko, koľko je možné. A niektorí ľudia sa obávajú, či ich budeme schopní využiť. Ja sa neobávam.) Obmedzením nie je výskumná kapacita ani nápady—je to surový výpočtový výkon. Každé GPU, ktoré dokážu získať, bude produktívne využité.
O úlohách vs. pracovných pozíciách: “I believe reasoning models even currently are probably capable of doing most of them… these tasks are coming fast.” (Verím, že modely uvažovania aj v súčasnosti sú pravdepodobne schopné urobiť väčšinu z nich… tieto úlohy prichádzajú rýchlo.) Kaiser objasňuje rozdiel: AI okamžite nenahradí celé pracovné pozície, ale úlohy založené na počítači—klikanie, písanie, programovanie—sa automatizujú teraz. “V priebehu niekoľkých mesiacov” prešlo kódovanie s AI z adekvátneho na skutočne užitočné.
O mladosti novej paradigmy: “We’ve scaled it up a little bit but there could be way more scaling it up. There’s way more research methods to make it better.” (Trochu sme to vyškálovali, ale mohlo by to byť oveľa viac vyškálované. Je oveľa viac výskumných metód, ako to zlepšiť.) Na rozdiel od škálovania transformerov, ktoré sa zastavilo kvôli obmedzeniam dát, paradigma uvažovania sotva začala. Kombinácia väčších základných modelov plus uvažovanie by mohla priniesť násobné zlepšenia.
Kľúčové poznatky
- Dve paradigmy, rôzne trajektórie - Čisté škálovanie transformerov je obmedzené dátami; modely uvažovania sú na strmej vzostupnej ceste s priestorom na rast
- Najprv počítačové úlohy, neskôr fyzický svet - Očakávajte rýchlu automatizáciu práce na obrazovke; robotika a fyzické úlohy potrvajú dlhšie
- Kódovanie je kanárik - Schopnosti AI v kódovaní prešli z “okay” na “skutočnú pomoc” len za tri mesiace; “polovicu času ľudia len požiadajú Codex, aby kódoval za nich ako prvý”
- Žiadne AGI—ale záleží na tom? - Kaiser nemá rád termín AGI; dôležitejšie je, že AI teraz môže “pracovať hodiny a urobiť niečo užitočné”
- Kompresia vs. škálovanie trade-off - OpenAI vyvažuje trénovanie najväčších možných modelov s tým, aby boli dosť lacné na obsluhovanie viac ako 800M+ používateľov
- 1-2 ročný horizont pre výrazné zlepšenie - Paradigma uvažovania plus nová výpočtová infraštruktúra by mohla čoskoro priniesť dramatické skoky v schopnostiach
Veľký obrázok
Kaiserovo rámovanie rieši zdanlivý rozpor medzi “AI pokrok sa spomaľuje” a “AI pokrok sa zrýchľuje”—hovoria o rôznych paradigmách. Čisté škálovanie transformerov dozrelo; modely uvažovania len začínajú. Pre organizácie plánujúce prijatie AI to naznačuje, že schopnosti dostupné o 12-24 mesiacov môžu byť dramaticky lepšie ako dnes, najmä pre úlohy, ktoré majú prospech z predĺženého “času na premýšľanie.” Éra AI, ktorá môže pracovať hodiny, nie sekundy, prichádza rýchlejšie, ako väčšina očakáva.