HintonとJeff Dean:現代AIを構築したコラボレーション
視点
これは、それを作った人々から直接歴史を聞く稀な対話の一つです。Geoffrey Hinton(ノーベル賞受賞者、「AIのゴッドファーザー」)とJeff Dean(Googleチーフサイエンティスト、Gemini共同リード)は2012年から協力しており、彼らのパートナーシップは本質的に現代AIを作り出しました。
逸話だけでも見る価値があります。深層学習革命を始めたAlexNetは、両親の家のAlex Krizhevskiyの寝室で2つのGPUで訓練されました。「良いニュースは、私たちがGPUボードの代金を支払いましたが、彼の両親が電気代を支払いました」とHintonは冗談を言います。販売を決めたとき、彼らは「DNN Research」として法人化し、給与ではなく買収資金を得ました(「一方は他方の10倍大きい」)。オークションはLake TahoeのカジノでNeurIPS中に行われました - 「上階でこのオークションをやっていて、100万ずつ上げなければなりませんでした」一方、階下ではスロットマシンが鳴り響いていました。
スケーリングの洞察は振り返ると魅力的です。Deanは、1990年の学部論文にデータ並列性を組み込んだことを認めていますが、「自分でもそれに気づいていませんでした」 - 彼はプロセッサーを追加したときにモデルサイズを増やさないという「巨大な間違い」をしました。Hintonは、より大きなモデルが単により良く機能するという教訓を「2014年まで本当に完全には理解していませんでした」と告白します。彼らはGoogle Brainで簡単なマントラを持っていました:「より大きなモデル、より多くのデータ、より多くの計算。」
Research in Motion(Blackberry)のストーリーは、すべてのエンタープライズにとっての警告の物語です。Hintonは、インターンを通じて無料でより良い音声認識技術を提供しました。彼らは「音声認識に興味がない」と言って断りました。Deanの辛辣な返答:「まあ、必要ありませんでした。キーボードがありました。」これは、カナダの研究が「カナダで決して活用されない」と後に不満を言った所有者のカナダ企業からです。
トランスフォーマーについて、Hintonは最初「ほとんど注意を払わなかった」と認めています。なぜなら、彼は脳に適したメカニズムに興味があるからです。LSTMの順次依存性問題は、「すべての状態を保存し、それらに注意を払う」という洞察につながりました。ミックスチャーオブエキスパートと組み合わせて、これらのアルゴリズム改善は「掛け合わされました」 - 私たちは現在、10年前より数十億倍多くの計算を行っています。
重要ポイント
- AlexNetのトレーニング予算は2つのGPUとティーンエイジャーの寝室 - ブレークスルーは最初は数十億ドルのインフラストラクチャを必要としない
- 「より大きなモデル、より多くのデータ、より多くの計算」は、正式なスケーリング法則が公開される何年も前のGoogle Brainの非公式スケーリング法則だった
- 企業の盲目がBlackberryを殺した:彼らはキーボードがあるからという理由で無料の音声認識技術を拒否した
- アルゴリズムの改善(トランスフォーマー、スパースモデル)はハードウェアの改善と掛け合わされる - 計算の増加は10年間で「数十億倍」