Stanford CME295 | 2025年秋 | 講演1: Transformerと大規模言語モデル(LLM)の入門

2025-10-17 Stanford Online

transformersllmeducationnlpembeddings

視点

これはLLMをファーストプリンシプルから理解したい人にとって理想的な出発点です。Uber、Google、そして現在NetflixでLLMに取り組んでいるツインブラザーのAfinとShervinが、ディープラーニングの事前知識を仮定することなく、基礎を説明します。

この講演が有価な理由:

講師たちは2020年からワークショップとしてこの教材を教えており、ChatGPT爆発とそれ以降を通じて反復してきました。彼らは学術的厳密性と、実際にLLM製品を出荷してきた業界経験の両方をもたらします。

彼らが導入するNLPの3つのカテゴリは明確なメンタルモデルを作成します：

分類 - 感情分析、インテント検出、言語識別
多ラベル分類 - 固有表現認識(NER)、品詞タグ付け
生成 - 翻訳、質問応答、要約(今日、すべてのアクションが起きている場所)

トークン化のトレードオフは特に良く説明されています：

単語レベルはシンプルですが、OOV(語彙外)の問題を作成します
サブワードは単語の根を活用しますが、シーケンス長を増加させます
文字レベルはスペルミスを処理しますが、シーケンスを非常に長くしおり、表現は無意味になります

埋め込みに関する重要な洞察: ワンホットエンコーディングは、すべてのトークンを直交(等しく異なる)にします。これは無用です。セマンティクスが類似したトークンが高いコサイン類似度を持つ学習表現が必要です。これはWord2Vecから最新のTransformerまで、すべてを可能にする基礎です。

主要なポイント

2単位のStanfordコース: 中間試験50%、期末試験50%、宿題なし - 完全に概念的
プロキシタスクが重要: Word2VecのSkip-gramとCBOWタスクは目標ではなく、学習された埋め込みが目標
語彙サイズ: 単一言語で約10K-50K、多言語/コードモデルで100K以上
シーケンス長は計算: 文字/サブワードトークン化から生じるより長いシーケンスは、直接モデルの速度に影響します
品質 > 量: より多くのデータを持つことより、正しい表現を持つことがより重要です

全体的な見方

ファーストプリンシプルからLLMを理解することは、トークン化のトレードオフと学習された埋め込みから始まります。ワンホットエンコーディングは、すべてのトークンを等しく異なる状態にします - 無用です。セマンティクスが類似したトークンが高いコサイン類似度を持つ表現が必要です。この基礎はWord2VecからWord2Vec現代のTransformerまで、すべてを可能にします。