Transformer共同発明者:「推論モデルはまだ始まったばかり—1〜2年で急激な改善が期待できる」

Jon Hernandez AI
future-of-workagentsenterpriseresearchinterview

視点

Lukasz KaiserはAI史上で独特の立場を持つ人物です。彼はTransformerを導入した2017年の「Attention Is All You Need」論文の共著者であり、8人の著者のうち、スタートアップを立ち上げるのではなくエンジニアとして残ることを選んだ唯一の人物です。現在OpenAIに所属し、O1推論モデルを生み出した研究を率いました。彼はこれを「新しいパラダイム」と呼び、transformerのスケーリングとは根本的に異なるものだとしています。このインタビューは、AIが実際にどこへ向かっているのかについて、稀有なインサイダーの視点を提供します。

推論パラダイムについて: “There was this transformer paradigm when we were scaling up transformers… But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it’s only on this very steep path up.”(transformerをスケールアップしていた時代のtransformerパラダイムがありました…しかし、推論という新しいパラダイムがあり、それはまだ始まったばかりです。このパラダイムは非常に若く、急勾配の上昇経路にあるだけだと感じています) Kaiserは、純粋なtransformerのスケーリングにおける収穫逓減と、推論モデルの未開拓の可能性を区別しています。推論モデルは「桁違いに少ないデータから学習する」と述べています。

AI冬の到来はないことについて: “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.”(その意味でのAI冬が来るとは思いません。むしろ、今後1〜2年で非常に急激な改善が起こる可能性があります—少し恐ろしいことかもしれません) スケーリングの壁にぶつかっているのではないかと推測する人もいますが、Kaiserは推論パラダイムが新たな急勾配の上昇と十分な余地を提供すると見ています。

究極のボトルネックについて: “That’s the ultimate bottleneck. Like it’s GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry.”(それが究極のボトルネックです。つまりGPUとエネルギーです。Samは基本的に可能な限り多くを確保していると思います。それらを使いこなせるかどうか心配する人もいますが、私は心配していません) 制約となっているのは研究能力やアイデアではなく、生の計算能力です。彼らが入手できるすべてのGPUは生産的に使用されます。

タスク対仕事について: “I believe reasoning models even currently are probably capable of doing most of them… these tasks are coming fast.”(現在の推論モデルでも、おそらくそれらのほとんどを実行できると思います…これらのタスクは急速に進んでいます) Kaiserは区別を明確にしています。AIはすぐに仕事全体を置き換えるわけではありませんが、コンピューター上のタスク—クリック、執筆、プログラミング—は現在自動化されています。「数ヶ月以内に」コーディングAIは適切なレベルから本当に役立つレベルへと進化しました。

新しいパラダイムの若さについて: “We’ve scaled it up a little bit but there could be way more scaling it up. There’s way more research methods to make it better.”(少しスケールアップしましたが、さらにスケールアップできる余地があります。より良くするための研究手法もたくさんあります) データの制約によりプラトーに達したtransformerのスケーリングとは異なり、推論パラダイムはまだほとんど始まっていません。より大きなベースモデルと推論の組み合わせは、複合的な改善をもたらす可能性があります。

主要なポイント

  • 2つのパラダイム、異なる軌道 - 純粋なtransformerのスケーリングはデータによって制約されている。推論モデルは成長の余地がある急勾配の上昇経路にある
  • コンピュータータスクが先、物理世界は後 - 画面ベースの作業の急速な自動化が期待される。ロボティクスと物理的なタスクにはより長い時間がかかる
  • コーディングは炭鉱のカナリア - AIのコーディング能力はわずか3ヶ月で「まあまあ」から「本当の助け」へと進化した。「人々の半分は最初にCodexにコーディングを依頼する」
  • AGIはない—しかしそれは重要か? - KaiserはAGIという用語を好まない。より重要なのは、AIが今や「何時間も働いて有用なことができる」ことである
  • 蒸留対スケーリングのトレードオフ - OpenAIは、可能な限り大きなモデルのトレーニングと、8億人以上のユーザーにサービスを提供できるほど安価にすることのバランスを取っている
  • 1〜2年の期間での急激な改善 - 推論パラダイムと新しい計算インフラストラクチャの組み合わせにより、劇的な能力の飛躍が近い将来に起こる可能性がある

全体像

Kaiserの枠組みは、「AIの進歩は減速している」と「AIの進歩は加速している」という明らかな矛盾を解決します—彼らは異なるパラダイムについて話しているのです。純粋なtransformerのスケーリングは成熟しました。推論モデルはまだ始まったばかりです。AI導入を計画している組織にとって、これは12〜24ヶ月後に利用可能な能力が今日よりも劇的に向上する可能性があることを示唆しています。特に、長時間の「思考時間」から恩恵を受けるタスクにおいてです。秒単位ではなく、何時間も働くことができるAIの時代は、ほとんどの人が予想するよりも早く到来しています。