事前訓練

/priː ˈtreɪnɪŋ/

Also known as: pretraining, foundation model training, base model training

technical intermediate

事前訓練とは何か?

事前訓練は、大規模言語モデルを訓練する最初のフェーズで、モデルが大量のテキストから一般的な言語理解を学習します。何十億もの本、記事、ウェブサイトを読んで、文法、事実、言語のパターンを学ぶことと考えてください。

事前訓練中、モデルは何十億もの単語を処理し、シーケンス内の次のトークンを繰り返し予測します。この自己教師あり学習アプローチ—人間のラベルではなく、データの構造自体から学習—がLLMに広範な能力を開発させます。

事前訓練パイプライン

1. データ収集 本、記事、ウェブサイト、コードリポジトリ、その他のソースから多様なテキストを収集。Hugging FaceのFineWebデータセットには、96のCommonCrawlスナップショットから15兆トークン(44TB)が含まれています。

2. データクリーニング 重複、非テキスト要素、フォーマット問題、低品質コンテンツを削除。データ品質はモデル品質に劇的に影響します。

3. トークン化 テキストをモデルが処理できる数値トークンに変換。テキストはサブワードまたは文字に分解され、一意の数値にマッピングされます。

4. 訓練 中核タスク:シーケンス内の次のトークンを予測。モデルは「The cat sat on the」を見て「mat」(または類似)を予測することを学習。何十億回も繰り返され、これが深い言語理解を構築します。

必要なリソース

事前訓練は非常にリソース集約的です:

  • 時間: 数週間から数ヶ月の連続訓練
  • 計算: 数千のGPUが並列実行
  • データ: 数兆のトークン
  • コスト: 最先端モデルで数百万ドル

これが、ほとんどの組織がゼロから事前訓練するのではなく、既存のモデルを微調整する理由です。

事前訓練 vs. 微調整

側面事前訓練微調整
目標一般的な言語理解特定のタスクまたは動作
データ数兆トークン、多様数千から数百万、ターゲット化
時間数週間から数ヶ月数時間から数日
コスト数百万ドル数百から数千ドル
誰が行うか基礎モデル研究所ユースケースを持つ誰でも

2フェーズパラダイム

現代のLLM開発は2つのフェーズで説明されます:

  1. 事前訓練: 汎用言語能力を構築
  2. 事後訓練: これらの能力を洗練し整列(微調整、RLHF、DPOを含む)

Andrej Karpathyが説明するように、事前訓練は「お粗末な進化の形」—インターネットテキストをうまく予測するモデルを選択。事後訓練はこの生の能力を有用で安全なものに形作ります。

2025年の発展

強化事前訓練(RPT): Microsoft研究者は次トークン予測を逐次意思決定問題として再構成し、事前訓練中のモデル学習を改善する可能性があります。

データ不足: 高品質テキストデータが不足しています。研究所は合成データ、マルチモーダルデータ、より効率的な訓練方法を探索しています。

スケーリング限界: 事前訓練の純粋なスケーリングは収穫逓減を示し、事後訓練革新にシフトしています。

関連記事

Mentioned In

Video thumbnail

John Schulman

Pre-training is like a crappy form of evolution - you're selecting for models that predict internet text well.