John Schulman:ChatGPTは2018年に作れたはずだった
OpenAI共同創業者が明かす、初期のOpenAIは「アカデミックグループのように寄せ集め」だったこと、そしてなぜ前提条件がないと良いアイデアは失敗するのか。
John Schulmanが最先端AI研究の起源をどう見ているか
John SchulmanはOpenAIを共同創業し、PPO(RLHFの背後にあるアルゴリズム)を作成し、最近Thinking Machinesを始めるために退社しました。この稀なインタビューは、最先端AI研究が実際にどのように機能するかについてのインサイダービューを提供します:失敗したスタート、組織文化、生産的なラボとそうでないものを分ける研究の審美眼。AIチームを構築したり、研究組織について考えている人にとって、これは一次資料です。
初期のChatGPTがいかに早く実現できたかについて: "With full hindsight, I think you could have gotten something back in 2018 or 2019 with a few people that would get to GPT 3.5 level... nanoGPT is just programmed by one person and runs on one box."(完全な後知恵で、2018年か2019年に少人数でGPT 3.5レベルに達するものを得られたと思います...nanoGPTは1人でプログラムされ、1台のマシンで動きます。)含意:障壁は計算やチームサイズではなく、知識と確信でした。正しい洞察を持つ小グループが、何年も早く構築できたはずです。
初期OpenAIの文化について: "It was more rag tag, maybe even like an academic group... a bunch of different research projects driven by people's own taste, groups of one to three people working on something that would turn into a paper or blog post."(より寄せ集めで、アカデミックグループのようでさえありました...人々自身の審美眼によって駆動される多くの異なる研究プロジェクト、論文やブログ投稿になる何かに取り組む1〜3人のグループ。)形成期は協調的なムーンショットではありませんでした - 最終的に何か大きなものに結晶化した探索的研究でした。
失敗したUniverseプロジェクトについて: "There was a project called Universe... the idea was to collect lots of video games and web navigation tasks. It ended up being unsuccessful at the time, but the funny thing is I think it was a deeply correct idea, just a decade too early."(Universeというプロジェクトがありました...アイデアは多くのビデオゲームとウェブナビゲーションタスクを収集することでした。当時は失敗しましたが、面白いことに、深く正しいアイデアだったと思います、ただ10年早すぎただけで。)パターン:前提条件がないと良いアイデアは失敗し、条件が変わると成功します。
研究管理のトレードオフについて: "I've seen very different approaches be successful. One model where the manager writes a lot of code, reads all their reports' code, gives detailed technical feedback. I've also seen more hands-off managers who are just sounding boards... both work in different places."(非常に異なるアプローチが成功するのを見てきました。マネージャーが多くのコードを書き、部下のすべてのコードを読み、詳細な技術的フィードバックを与えるモデル。また、単にサウンディングボードであるハンズオフなマネージャーも見てきました...両方が異なる場所で機能します。)探索的研究にはハンズオフが必要; 実行モードにはハンズオンが必要。コンテキストがスタイルを決定します。
研究にAIをどう使うかについて: "If I have an idea, I'll fire off a bunch of questions to GPT-5 Pro and have it do literature searches. Sometimes I'll write a paragraph and tell the model to flesh it out... definitely the literature search ability is extremely useful."(アイデアがあれば、GPT-5 Proに質問を投げかけて文献検索をさせます。時々段落を書いてモデルに肉付けさせることもあります...確実に文献検索能力は非常に有用です。)トップの研究者でさえ、最初のフィードバックと文献発見にLLMを使用しています。
John Schulmanによる研究文化とAI進歩の6つの洞察
- ChatGPTは何年も早く作れた - 完全な後知恵で、2018-2019年の小チームがGPT-3.5レベルを達成できた; 障壁はリソースではなく洞察だった
- 初期のOpenAIはアカデミックスタイル - 協調的なムーンショットではなく、自分自身の研究審美眼を追求する1〜3人の小グループ; より大きなプロジェクトは後で出現した
- 「正しいが早すぎる」はパターン - Universe(RL環境)は前提条件が存在する10年前の正しいアイデアだった; 失敗したプロジェクトはしばしば戻ってくる
- 研究管理はコンテキスト依存 - ハンズオンは実行とジュニアに機能; ハンズオフは探索と経験豊富なICに機能
- 価値関数は復活する - 現在LLM RLでは活用されていないが、Schulmanは時間軸が延びるにつれて戻ってくると予想
- Thinking Machinesはキャッチアップと探索のバランス - 新しいラボは探索的研究の筋肉を構築しながら最先端を再現しなければならない; 文化は後から追加するのが難しい
AI研究組織にとっての意味
Schulmanの視点は、最先端AI研究の神秘性を払拭します。重要な洞察:初期のOpenAIは完璧に組織されたムーンショットではありませんでした - 最終的にスケーリングに収束した探索的研究でした。ChatGPTの反実仮想(後知恵では2018年に構築可能)は、制限要因が計算やチームサイズではなく知識と確信であることを示唆しています。AI研究能力を構築している組織にとっての含意は、文化と研究審美眼がリソースよりも重要であり、「正しいが早すぎる」アイデアは条件が最終的に変わるため追跡する価値があるということです。


