Andrej Karpathy: 忙しい人のための LLM 入門 (バイラルな 30 分解説)
LLM の本質についての基礎的な講演: 2つのファイル、インターネットの非可逆圧縮、そして完全には理解されていない理由について。
視点
これは大規模言語モデル (LLM) への決定的な入門です。Karpathy は、元のバージョルがキャプチャされなかった彼のバイラルな 30 分の講演を YouTube 用に再録画しました。この講演を理解すれば、基礎を理解したことになります。
「大規模言語モデルは単なる 2 つのファイルです。」 パラメータファイル (Llama 2 70B で 140GB - 70 億パラメータ × 2 バイト (float16)) と実行ファイル (依存関係なしの C コード約 500 行)。これら 2 つのファイルを取り、コンパイルして、MacBook でモデルとオフラインで会話できます。それがすべてのパッケージです。
学習は圧縮です。 10TB のインターネットテキスト、6,000 GPU を 12 日間使用 (約 $2M)、140GB のパラメータに圧縮します。これは約 100 倍の圧縮です。ただし、これは非可逆圧縮です。モデルは学習データの「ゲシュタルト」を持っており、同一のコピーではありません。「これはインターネットの zip ファイルのようなものです。」
反転呪文はこの知識がいかに奇妙かを示します。 GPT-4 はトム・クルーズの母親が Mary Lee Pfeiffer であることを知っています。しかし「Mary Lee Pfeiffer の息子は誰ですか?」と聞くと、知りません。「この知識は奇妙で、ほぼ一次元です。特定の方向から質問する必要があります。」
「LLM はほぼ解釈不可能なアーティファクトです。」 正確なアーキテクチャ、すべての数学演算を知っています。しかし、100 億パラメータが何をしているのかは知りません。「次の単語の予測が改善されていることを測定できますが、これらのパラメータがどのように協力してそれを実行するのかは知りません。」車とは異なり、すべての部品を理解しています。
事前学習と微調整。 事前学習: 大量、低品質なインターネットデータ、知識を構築します。微調整: より少ない量 (約 100K の例)、非常に高品質な Q&A ペア、モデルにアシスタント「フォーマット」を提供します。事前学習は高額です (数か月、数百万ドル、年 1 回)。微調整は安価です (毎日の反復が可能)。
RLHF は比較を使用します。生成よりも比較の方が簡単だからです。 俳句を書くのは難しいです。複数の選択肢から最高の俳句を選ぶ方が簡単です。ステージ 3 微調整は人間フィードバックからの強化学習でこれを利用します。
スケーリングの法則が重要な洞察です。 パフォーマンスは「N (パラメータ) と D (学習データ) の 2 つの変数だけのきれいで、予測可能な関数です。」 頭打ちの兆候はありません。「アルゴリズムの進歩は必要ありません。より大きなモデルをより長く学習することで、より強力なモデルを無料で取得できます。」
重要なポイント
- 2 つのファイル - パラメータ (70B モデルで 140GB) + run.c (約 500 行)
- 100 倍の非可逆圧縮 - 10TB インターネット → 140GB パラメータ
- 次の単語の予測 - 基本タスク; 世界を学ぶことを強制します
- 反転呪文 - 知識は一次元; 方向が重要
- 「ほぼ解釈不可能」 - アーキテクチャは知っていますが、パラメータが何をするかは不明
- 事前学習 = 知識 - 高額、数か月、インターネット規模のデータ
- 微調整 = アライメント - 安価、毎日可能、100K 品質の例
- RLHF - 比較する方が生成するより簡単; ステージ 3 最適化
- スケーリング法則 - パフォーマンスはパラメータ × データから予測可能; プラトーなし
- オープン vs クローズド - クローズド (GPT-4、Claude) はより良く機能; オープン (Llama) は到達可能
- 「ハルシネーション」 - モデルは暗記した内容と生成した内容を区別しません
大きな図
LLM は人間の知識の 100 倍圧縮版で、ラップトップに収まります。私たちはそれを構築し、実行できますが、100 億パラメータがどのように協力して知能を生成するかは実際には理解していません。完全に理解する前に何か強力なものを作った奇妙な立場にいます。


