Stanford CME295 | 2025年秋季 | 第1讲：Transformers与大语言模型介绍

transformersllmeducationnlpembeddings

视角

这是任何想要从第一性原理理解LLM的人的理想起点。曾在Uber、Google以及现在Netflix从事LLM工作的双胞胎兄弟Afin和Shervin，在不假设先前深度学习专业知识的情况下，分解了基础知识。

为什么这次讲座很有价值：

讲师自2020年以来一直以工作坊的形式教授这些材料，经历了ChatGPT爆发及其后的迭代。他们既具备学术严谨性，又拥有实际上线LLM产品的行业经验。

他们介绍的NLP三个模块创造了一个清晰的心智模型：

分词权衡的解释特别清楚：

关于嵌入的关键洞察：一热编码使所有标记正交（同样不相似），这没有用处。我们需要学习到的表示，其中语义相似的标记具有高余弦相似度。这是使Word2Vec到现代transformers中的一切成为可能的基础。

从第一性原理理解LLM始于分词权衡和学习到的嵌入。一热编码使所有标记同样不相似 - 没有用处。我们需要表示，其中语义相似的标记具有高余弦相似度。这个基础使Word2Vec到现代transformers中的一切成为可能。