Stanford CME295 | 2025年秋季 | 第1讲:Transformers与大语言模型介绍

Stanford Online
transformersllmeducationnlpembeddings

视角

这是任何想要从第一性原理理解LLM的人的理想起点。曾在Uber、Google以及现在Netflix从事LLM工作的双胞胎兄弟Afin和Shervin,在不假设先前深度学习专业知识的情况下,分解了基础知识。

为什么这次讲座很有价值:

讲师自2020年以来一直以工作坊的形式教授这些材料,经历了ChatGPT爆发及其后的迭代。他们既具备学术严谨性,又拥有实际上线LLM产品的行业经验。

他们介绍的NLP三个模块创造了一个清晰的心智模型:

  1. 分类 - 情感分析、意图检测、语言识别
  2. 多分类 - 命名实体识别(NER)、词性标注
  3. 生成 - 翻译、问答、摘要(当今所有的重点)

分词权衡的解释特别清楚:

  • 词级简单但会产生OOV(词汇外)问题
  • 子词利用词根但增加序列长度
  • 字符级处理拼写错误但使序列非常长且表示意义不明确

关于嵌入的关键洞察:一热编码使所有标记正交(同样不相似),这没有用处。我们需要学习到的表示,其中语义相似的标记具有高余弦相似度。这是使Word2Vec到现代transformers中的一切成为可能的基础。

关键要点

  • 两单元Stanford课程:50%期中考试,50%期末考试,无家庭作业 - 纯概念性
  • 代理任务很重要:Word2Vec的skip-gram和CBOW任务不是目标 - 学习到的嵌入才是
  • 词汇表大小:单语言约10K-50K,多语言/代码模型100K+
  • 序列长度就是计算:来自字符/子词分词的较长序列直接影响模型速度
  • 质量胜于数量:拥有正确的表示比拥有更多数据更重要

大局观

从第一性原理理解LLM始于分词权衡和学习到的嵌入。一热编码使所有标记同样不相似 - 没有用处。我们需要表示,其中语义相似的标记具有高余弦相似度。这个基础使Word2Vec到现代transformers中的一切成为可能。