ジェフ・ディーン:現代のAIモデルができるまでの15年間の軌跡
視点
これはジェフ・ディーン - Googleの従業員№30、MapReduceとBigTableの創作者、Google Brain創設者、現在DeepMindの最高科学責任者 - による、現代のAIモデルがどのようにして誕生したかについての決定的な歴史の説明です。これは本質的に、深層学習の台頭の内部から見たストーリーであり、その全てを経験した人からの証言です。
スケールの計算を間違える謙虚さ。 1990年には、ディーンはニューラルネットワークにそれほど興奮していて、32プロセッサのハイパーキューブマシンを使用した並列トレーニングについて卒業論文を書きました。「私は完全に間違っていました。本当に良いニューラルネットワークを作るには、32倍ではなく、約100万倍の処理能力が必要でした。」スケールについてのその直感は正しかったのです - ただ桁が違っていました。
Google Brain発祥の物語は楽しいほど気さくです。 2012年に、ディーンはGoogleのマイクロキッチンでアンドリュー・ングに会いました。Ngは、スタンフォードの学生たちがニューラルネットワークで音声認識に良い結果を得ていると述べました。ディーンの返答は:「ああ、それは素晴らしいですね。本当に大きなニューラルネットワークをトレーニングするべきです。」その会話がGoogle Brainになり、懐疑論システム(人々がそれがうまくいくとは信じなかったから「一部にはそう名付けられた」)になりました。
TPUを立ち上げたエンベロープ計算。 ディーンは、Googleが新しい高品質音声認識モデルを展開し、1億人が毎日3分間自分の電話を通じて話す場合、Googleのデータセンター全体の容量を2倍にする必要があることに気付きました。専用ハードウェアはオプションではなく、存在論的必要性でした。TPU v1はCPU/GPUに比べて15〜30倍の高速化と30〜80倍のエネルギー効率を実現しました。この論文は現在ISCAの50年の歴史で最も引用されています。
すべての主要なブレークスルーが1枚のスライドで。 Word2vecとベクトル方向が意味を持つという発見(king - man + woman = queen)。翻訳のためのシーケンス・ツー・シーケンスモデル。LSTMより10〜100倍計算効率が良いことを示すトランスフォーマー。テキストの自己教師あり学習による「ほぼ無限のトレーニング例」の生成。4〜20倍少ない計算で最先端を達成するビジョン・トランスフォーマー。予測ごとに1〜5%のパラメータのみをアクティベートするスパースモデル。チェーン・オブ・ソート・プロンプティング。ディスティレーション。RLHF。
進歩のフレーミングは胸が痛いです。 「3年前、8年生の数学の問題で15%正解できたことに本当に興奮していました。」そのGSM8K ベンチマーク - 「ショーンは5つのおもちゃを持っています。クリスマスに2つさらに手に入れました」のような中学生の言葉の問題 - は今本質的には解決されました。
重要なポイント
- Google Brainはマイクロキッチンで始まった - ディーンはアンドリュー・ングに会い、「本当に大きなニューラルネットワークをトレーニングする」ことにしました
- 懐疑論:「数学的には間違っていたが、機能した」 - 200個のモデルレプリカが共有パラメータを更新する非同期トレーニング
- 猫ペーパー(2012年) - 1000万のYouTubeフレーム、教師なし学習、ニューロンはラベルなしで「猫」の概念を学びました
- Word2vecの方向は意味論的 - King - man + woman = queen。過去/未来時制の方向
- TPU命令型 - より良い音声認識を展開することはGoogleのデータセンターを2倍にしていました
- TPUv1 - CPU/GPUより15〜30倍高速、30〜80倍エネルギー効率が高い
- トランスフォーマー(2017年) - 同じ精度のLSTMより10〜100倍少ない計算。再帰的注意ではなく注意メカニズム
- スパースモデル - 予測ごとにパラメータの1〜5%のみアクティベート。Geminiがこれを使用
- チェーン・オブ・ソート - モデルは「仕事を表示する」ことでトークンごとにより多くの計算を行う
- ディスティレーション - トレーニングデータの3%とソフトターゲットがハードラベルを持つ100%のデータと同じ
- パスウェイ - 単一のPythonプロセスは都市圏全体で10,000のTPUデバイスに対応できる
- GSM8K進捗 - 3年前に8年生の数学で15%の精度。今本質的には解決されている
大局的観点
15年間の複合ブレークスルー - 猫ペーパーからトランスフォーマーへ、スパースモデルへ - 現代のAIを作成しました。各ステップは段階的に見えました。一緒に、それらは変革的です。MapReduceを構築した人は現在、3年前に不可能だと考えられていた問題を解決するシステムを実行しています。