Stanford CME295 | 2025年秋季 | 第1讲:Transformers与大语言模型介绍
transformersllmeducationnlpembeddings
视角
这是任何想要从第一性原理理解LLM的人的理想起点。曾在Uber、Google以及现在Netflix从事LLM工作的双胞胎兄弟Afin和Shervin,在不假设先前深度学习专业知识的情况下,分解了基础知识。
为什么这次讲座很有价值:
讲师自2020年以来一直以工作坊的形式教授这些材料,经历了ChatGPT爆发及其后的迭代。他们既具备学术严谨性,又拥有实际上线LLM产品的行业经验。
他们介绍的NLP三个模块创造了一个清晰的心智模型:
- 分类 - 情感分析、意图检测、语言识别
- 多分类 - 命名实体识别(NER)、词性标注
- 生成 - 翻译、问答、摘要(当今所有的重点)
分词权衡的解释特别清楚:
- 词级简单但会产生OOV(词汇外)问题
- 子词利用词根但增加序列长度
- 字符级处理拼写错误但使序列非常长且表示意义不明确
关于嵌入的关键洞察:一热编码使所有标记正交(同样不相似),这没有用处。我们需要学习到的表示,其中语义相似的标记具有高余弦相似度。这是使Word2Vec到现代transformers中的一切成为可能的基础。
关键要点
- 两单元Stanford课程:50%期中考试,50%期末考试,无家庭作业 - 纯概念性
- 代理任务很重要:Word2Vec的skip-gram和CBOW任务不是目标 - 学习到的嵌入才是
- 词汇表大小:单语言约10K-50K,多语言/代码模型100K+
- 序列长度就是计算:来自字符/子词分词的较长序列直接影响模型速度
- 质量胜于数量:拥有正确的表示比拥有更多数据更重要
大局观
从第一性原理理解LLM始于分词权衡和学习到的嵌入。一热编码使所有标记同样不相似 - 没有用处。我们需要表示,其中语义相似的标记具有高余弦相似度。这个基础使Word2Vec到现代transformers中的一切成为可能。