Lukasz Kaiser

Lukasz Kaiser

Research Scientist at OpenAI

Spoluautor papera o Transformeroch a výskumník OpenAI, ktorý viedol vývoj modelov uvažovania O1—jediný z 'Transformer Eight', ktorý stále pracuje ako inžinier v laboratóriu.

openairesearchtransformersreasoning

O Lukasz Kaiser

Lukasz Kaiser je výskumník hlbokého učenia v OpenAI a jeden z ôsmich spoluautorov prelomového papera z roku 2017 “Attention Is All You Need”, ktorý predstavil architektúru Transformer. To, čo robí Kaisera jedinečným medzi “Transformer Eight”, je jeho voľba: zatiaľ čo siedmi z jeho spoluautorov odišli zakladať AI startupy (vrátane Cohere, Adept a Character.AI), Kaiser zostal inžinierom a nakoniec sa pripojil k OpenAI v roku 2021.

V OpenAI bol Kaiser v centre najdôležitejších prelomov spoločnosti. Slúžil ako vedúci pre dlhý kontext pre GPT-4 a viedol výskumný tím, ktorý vyvinul modely uvažovania O1—to, čo nazýva “novou paradigmou”, zásadne odlišnou od čistého škálovania transformerov. Jeho oznámenie na X/Twitter, keď sa O1 spustil, zachytilo tento význam: “I’m so happy to see o1 launch! Leading this research with my colleagues for almost 3 years and working on related ideas even longer convinced me: it’s a new paradigm.”

Pred svojou kariérou v AI bol Kaiser riadnym výskumníkom na University Paris Diderot so špecializáciou na logiku a teóriu automatov. Získal doktorát z RWTH Aachen University a MSc z University of Wroclaw, Poľsko. Toto pozadie v formálnych metódach môže vysvetľovať jeho zameranie na uvažovanie a verifikáciu v AI systémoch.

Kariérne úspechy

  • OpenAI (2021-súčasnosť): Research Scientist, viedol vývoj modelov uvažovania O1/O3, vedúci dlhého kontextu GPT-4
  • Google Brain (2014-2021): Staff Research Scientist, spoluautor papera o Transformeroch
  • University Paris Diderot: Riadny výskumník v logike a teórii automatov
  • Spoluautor: “Attention Is All You Need” (2017), systém TensorFlow, knižnice Tensor2Tensor a Trax

Významné pozície

O paradigme uvažovania

Kaiser robí ostrý rozdiel medzi dvoma AI paradigmami. Pôvodná paradigma škálovania transformerov—“len predpovedať ďalšie slovo a trénovať väčší a väčší model na viac a viac dátach”—sa zastavila kvôli obmedzeniam dát. Ale paradigma uvažovania je zásadne odlišná:

“Reasoning models learn from another order of magnitude less data. This paradigm is so young that it’s only on this very steep path up… We’ve scaled it up a little bit but there could be way more.”

O zostať inžinierom

Na rozdiel od jeho spoluautorov Transformera, ktorí sa stali zakladateľmi, Kaiser sa rozhodol zostať praktický:

“Welcome the… authors of the paper that says attention is all you need. Ladies and gentlemen, the only person who is still an engineer—Lukasz.”

Táto voľba ho postavila do centra najpodstatnejšej práce OpenAI, od GPT-4 po modely uvažovania.

O časovej osi AGI

Kaiser nemá rád termín “AGI”, ale zdôrazňuje praktickú realitu: AI teraz môže pracovať hodiny na užitočných úlohách, nie len odpovedať v sekundách. Pre úlohy založené na počítači—klikanie, písanie, programovanie—automatizácia “prichádza rýchlo”, zatiaľ čo robotika vo fyzickom svete zostáva vo svojej začiatočnej fáze.

Kľúčové citáty

  • “There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it’s only on this very steep path up.” (o modeloch uvažovania)
  • “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (o pokroku AI)
  • “That’s the ultimate bottleneck—GPUs and energy.” (o obmedzeniach)
  • “It’s a new paradigm. Models that train hidden CoTs are more powerful than raw Transformers, learn from less data, generalize better.” (o spustení O1)

Súvisiace čítanie

  • AI Agents - Autonómne systémy, ktoré umožňujú Kaiserove modely uvažovania
  • Supervision Threshold - Keď AI prechádza od asistencie k autonómii

Video Mentions

Video thumbnail

Reasoning models paradigm

Kaiser explains the reasoning paradigm: 'There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it's only on this very steep path up.'

Video thumbnail

Compute constraints

On the bottleneck: 'That's the ultimate bottleneck—GPUs and energy. I think Sam is basically getting as much more as is possible.'

Video thumbnail

Task automation timeline

On task automation: 'I believe reasoning models even currently are probably capable of doing most of them... these tasks are coming fast.'

Related People