Stanford CME295 | 2025年秋 | 講演1: Transformerと大規模言語モデル(LLM)の入門
transformersllmeducationnlpembeddings
視点
これはLLMをファーストプリンシプルから理解したい人にとって理想的な出発点です。Uber、Google、そして現在NetflixでLLMに取り組んでいるツインブラザーのAfinとShervinが、ディープラーニングの事前知識を仮定することなく、基礎を説明します。
この講演が有価な理由:
講師たちは2020年からワークショップとしてこの教材を教えており、ChatGPT爆発とそれ以降を通じて反復してきました。彼らは学術的厳密性と、実際にLLM製品を出荷してきた業界経験の両方をもたらします。
彼らが導入するNLPの3つのカテゴリは明確なメンタルモデルを作成します:
- 分類 - 感情分析、インテント検出、言語識別
- 多ラベル分類 - 固有表現認識(NER)、品詞タグ付け
- 生成 - 翻訳、質問応答、要約(今日、すべてのアクションが起きている場所)
トークン化のトレードオフは特に良く説明されています:
- 単語レベルはシンプルですが、OOV(語彙外)の問題を作成します
- サブワードは単語の根を活用しますが、シーケンス長を増加させます
- 文字レベルはスペルミスを処理しますが、シーケンスを非常に長くしおり、表現は無意味になります
埋め込みに関する重要な洞察: ワンホットエンコーディングは、すべてのトークンを直交(等しく異なる)にします。これは無用です。セマンティクスが類似したトークンが高いコサイン類似度を持つ学習表現が必要です。これはWord2Vecから最新のTransformerまで、すべてを可能にする基礎です。
主要なポイント
- 2単位のStanfordコース: 中間試験50%、期末試験50%、宿題なし - 完全に概念的
- プロキシタスクが重要: Word2VecのSkip-gramとCBOWタスクは目標ではなく、学習された埋め込みが目標
- 語彙サイズ: 単一言語で約10K-50K、多言語/コードモデルで100K以上
- シーケンス長は計算: 文字/サブワードトークン化から生じるより長いシーケンスは、直接モデルの速度に影響します
- 品質 > 量: より多くのデータを持つことより、正しい表現を持つことがより重要です
全体的な見方
ファーストプリンシプルからLLMを理解することは、トークン化のトレードオフと学習された埋め込みから始まります。ワンホットエンコーディングは、すべてのトークンを等しく異なる状態にします - 無用です。セマンティクスが類似したトークンが高いコサイン類似度を持つ表現が必要です。この基礎はWord2VecからWord2Vec現代のTransformerまで、すべてを可能にします。