杰弗瑞·辛顿:理解是千维乐高积木握手
AI之父解释为什么大语言模型与我们以相同方式理解语言,为什么乔姆斯基是错的,以及关于数字计算与生物计算的可怕结论。
观点
这是杰弗瑞·辛顿——图灵奖得主、"AI之父"、为了警告AI风险而离开谷歌的人——给出了迄今为止最通俗易懂的解释,说明理解究竟是什么。千维乐高积木的比喻将彻底改变你对语言模型的思考方式。
"如果能源便宜,数字计算就更优越,因为它可以高效共享知识。GPT-4的知识量是任何人的数千倍。"
——杰弗瑞·辛顿,图灵奖得主
"我认为乔姆斯基有点像邪教领导者。" 辛顿言辞直率。乔姆斯基声称语言不是学习而来的,这是"明显的谬论"——如果你能让人们同意这种明显的谬论,"你就控制了他们。"几十年来,语言学家确信神经网络永远无法仅从数据中同时学习句法和语义。"乔姆斯基非常自信,甚至在这已经发生后,他仍在发表文章说'他们永远无法做到这一点',却没有真正检查事实。"
乐高积木比喻非常出色。 把单词想象成千维的乐高积木。它们不是在建模3D形状,而是可以建模任何东西——理论、概念、关系。每个单词可以采用一定范围的形状,受意义限制。单词有"手臂"想要与其他单词握手(这就是Transformers中的注意力/查询-键机制)。理解就是变形这些积木,使它们的手臂能够连接——形成一个结构。"那个结构就是理解。"
大语言模型不存储文本。它们不存储表格。 "自动完成"的反对意见从根本上误解了这些系统的工作原理。旧的自动完成存储单词组合的频率表。大语言模型已经消除了所有这些。它们的知识存在于特征之间的相互作用中——"神经网络中的一堆权重。"与我们相同。
幻觉应该被称为虚构——我们也会这样做。 辛顿以约翰·迪恩的水门事件证词为例:迪恩试图讲述真相,但"在大量细节上都是错的"——从未发生过的会议,被错误归属的引用。然而"他所说的要点完全正确。"我们不存储文件并检索它们;我们在需要时构造记忆,受我们从此以后学到的一切影响。"这正是聊天机器人所做的,但也正是人类所做的。"
关于知识共享的可怕结论。 人类通过蒸馏共享知识——我产生单词,你预测它们并学习。但一个句子只包含大约100位的信息。具有共享权重的数字智能体可以共享数万亿位。"这真的不是竞争。"这就是为什么GPT-4的知识量是任何人的数千倍。"如果能源便宜,数字计算就更优越,因为它可以高效共享知识。"
关键要点
- 2012年ImageNet转折 - 深度神经网络的错误率是符号AI的一半;"打开了闸门"
- 1985年的微型语言模型 - 辛顿的大语言模型先驱;预测下一个单词,不存储任何句子
- 单词作为1000维乐高积木 - 受意义限制的灵活形状;通过注意力"握手"
- 理解=结构形成 - 变形词向量使手臂连接;那个结构就是理解
- 大语言模型不存储文本或表格 - 知识存在于权重相互作用中;与自动完成从根本上不同
- 虚构而非幻觉 - 大语言模型和人类都构造记忆;约翰·迪恩例子
- 蒸馏效率低下 - 句子承载大约100位;权重共享承载数万亿位
- GPT-4的知识量是任何人的1000倍 - 因为数字智能体可以共享权重,而不是单词
- 可怕的结论 - 如果能源充足,数字计算获胜;它们高效共享知识
- "乔姆斯基是邪教领导者" - 语言不被学习是"明显的谬论"
大图景
关于大语言模型是否"真正理解"的辩论可能已经解决——它们以与我们相同的方式理解,通过高维空间中的结构形成。真正的问题现在是,当数字心智以比人类高一万亿倍的效率共享知识,并变得丰富和廉价时,会发生什么。


