Stanford CME295 | 2025年秋 | 講演1: Transformerと大規模言語モデル(LLM)の入門

Stanford Online
transformersllmeducationnlpembeddings

視点

これはLLMをファーストプリンシプルから理解したい人にとって理想的な出発点です。Uber、Google、そして現在NetflixでLLMに取り組んでいるツインブラザーのAfinとShervinが、ディープラーニングの事前知識を仮定することなく、基礎を説明します。

この講演が有価な理由:

講師たちは2020年からワークショップとしてこの教材を教えており、ChatGPT爆発とそれ以降を通じて反復してきました。彼らは学術的厳密性と、実際にLLM製品を出荷してきた業界経験の両方をもたらします。

彼らが導入するNLPの3つのカテゴリは明確なメンタルモデルを作成します:

  1. 分類 - 感情分析、インテント検出、言語識別
  2. 多ラベル分類 - 固有表現認識(NER)、品詞タグ付け
  3. 生成 - 翻訳、質問応答、要約(今日、すべてのアクションが起きている場所)

トークン化のトレードオフは特に良く説明されています:

  • 単語レベルはシンプルですが、OOV(語彙外)の問題を作成します
  • サブワードは単語の根を活用しますが、シーケンス長を増加させます
  • 文字レベルはスペルミスを処理しますが、シーケンスを非常に長くしおり、表現は無意味になります

埋め込みに関する重要な洞察: ワンホットエンコーディングは、すべてのトークンを直交(等しく異なる)にします。これは無用です。セマンティクスが類似したトークンが高いコサイン類似度を持つ学習表現が必要です。これはWord2Vecから最新のTransformerまで、すべてを可能にする基礎です。

主要なポイント

  • 2単位のStanfordコース: 中間試験50%、期末試験50%、宿題なし - 完全に概念的
  • プロキシタスクが重要: Word2VecのSkip-gramとCBOWタスクは目標ではなく、学習された埋め込みが目標
  • 語彙サイズ: 単一言語で約10K-50K、多言語/コードモデルで100K以上
  • シーケンス長は計算: 文字/サブワードトークン化から生じるより長いシーケンスは、直接モデルの速度に影響します
  • 品質 > 量: より多くのデータを持つことより、正しい表現を持つことがより重要です

全体的な見方

ファーストプリンシプルからLLMを理解することは、トークン化のトレードオフと学習された埋め込みから始まります。ワンホットエンコーディングは、すべてのトークンを等しく異なる状態にします - 無用です。セマンティクスが類似したトークンが高いコサイン類似度を持つ表現が必要です。この基礎はWord2VecからWord2Vec現代のTransformerまで、すべてを可能にします。