事前訓練
/priː ˈtreɪnɪŋ/
Also known as: pretraining, foundation model training, base model training
事前訓練とは何か?
事前訓練は、大規模言語モデルを訓練する最初のフェーズで、モデルが大量のテキストから一般的な言語理解を学習します。何十億もの本、記事、ウェブサイトを読んで、文法、事実、言語のパターンを学ぶことと考えてください。
事前訓練中、モデルは何十億もの単語を処理し、シーケンス内の次のトークンを繰り返し予測します。この自己教師あり学習アプローチ—人間のラベルではなく、データの構造自体から学習—がLLMに広範な能力を開発させます。
事前訓練パイプライン
1. データ収集 本、記事、ウェブサイト、コードリポジトリ、その他のソースから多様なテキストを収集。Hugging FaceのFineWebデータセットには、96のCommonCrawlスナップショットから15兆トークン(44TB)が含まれています。
2. データクリーニング 重複、非テキスト要素、フォーマット問題、低品質コンテンツを削除。データ品質はモデル品質に劇的に影響します。
3. トークン化 テキストをモデルが処理できる数値トークンに変換。テキストはサブワードまたは文字に分解され、一意の数値にマッピングされます。
4. 訓練 中核タスク:シーケンス内の次のトークンを予測。モデルは「The cat sat on the」を見て「mat」(または類似)を予測することを学習。何十億回も繰り返され、これが深い言語理解を構築します。
必要なリソース
事前訓練は非常にリソース集約的です:
- 時間: 数週間から数ヶ月の連続訓練
- 計算: 数千のGPUが並列実行
- データ: 数兆のトークン
- コスト: 最先端モデルで数百万ドル
これが、ほとんどの組織がゼロから事前訓練するのではなく、既存のモデルを微調整する理由です。
事前訓練 vs. 微調整
| 側面 | 事前訓練 | 微調整 |
|---|---|---|
| 目標 | 一般的な言語理解 | 特定のタスクまたは動作 |
| データ | 数兆トークン、多様 | 数千から数百万、ターゲット化 |
| 時間 | 数週間から数ヶ月 | 数時間から数日 |
| コスト | 数百万ドル | 数百から数千ドル |
| 誰が行うか | 基礎モデル研究所 | ユースケースを持つ誰でも |
2フェーズパラダイム
現代のLLM開発は2つのフェーズで説明されます:
- 事前訓練: 汎用言語能力を構築
- 事後訓練: これらの能力を洗練し整列(微調整、RLHF、DPOを含む)
Andrej Karpathyが説明するように、事前訓練は「お粗末な進化の形」—インターネットテキストをうまく予測するモデルを選択。事後訓練はこの生の能力を有用で安全なものに形作ります。
2025年の発展
強化事前訓練(RPT): Microsoft研究者は次トークン予測を逐次意思決定問題として再構成し、事前訓練中のモデル学習を改善する可能性があります。
データ不足: 高品質テキストデータが不足しています。研究所は合成データ、マルチモーダルデータ、より効率的な訓練方法を探索しています。
スケーリング限界: 事前訓練の純粋なスケーリングは収穫逓減を示し、事後訓練革新にシフトしています。
関連記事
- スケーリング法則 - 事前訓練計算とパフォーマンスの関係
- Andrej Karpathy - 事前訓練を「お粗末な進化」と呼ぶ
- John Schulman - 事後訓練技術のパイオニア