大语言模型真的理解吗?Yann LeCun vs DeepMind的Adam Brown

llmdebatemetadeepmindunderstandingworld-models

两位全球顶级AI研究人员坐下来进行了一次坦诚的辩论,讨论当今AI领域最具争议性的问题:这些系统是否真正理解任何东西?

观点

这场辩论浓缩了当前AI研究中的核心哲学和技术分歧。一方面,DeepMind的Adam Brown辩称大语言模型确实理解——虽然不完美,但确实存在。另一方面,Yann LeCun主张它们的理解是”肤浅的”,因为它不是基于物理现实的。两种观点之间的细微差别比任何极端立场都能更深刻地揭示真理。

最具启发性的时刻出现在早期,当主持人问一个二元问题:“大语言模型理解吗?“Brown说是的。LeCun说”某种程度上是”。这种二元立场之间的梯度就是真理所在。

LeCun的核心论点基于信息论和样本效率。他指出,训练一个具有竞争力的大语言模型需要30万亿个token——大约10^14字节的文本数据。这基本上是互联网上所有自由可获得的文本,相当于50万年的人类阅读时间。将其与视觉数据相比:这相同的10^14字节仅代表16,000小时的视频——恰好是一个四岁孩子在整个清醒生活中所看到的(假设通过视神经传输速率为2MB/秒)。

这不仅仅是关于数据量。这是关于信息密度和基础。一个孩子学习物理不需要阅读数百万个物体下落的描述。他们看到东西下落,他们扔东西,通过持续的高维感觉体验建立对重力、惯性和因果关系的直觉模型。大语言模型只有语言——现实的符号压缩,而不是现实本身。

Brown提出了一个关键的见解:样本效率并不是一切。猫在一周内学会行走;人类需要一年。这不能说明猫比人类或大语言模型更聪明。重要的是最终能力,而不是学习速度。在几乎所有重要的衡量标准上——累积知识、问题解决范围、语言复杂性——大语言模型已经超越了猫的智能,并在特定任务上正在推进远超人类表现。

他的证据很有说服力。在2025年国际数学奥林匹克竞赛上,Google的系统得分超过了全球排名前十二的所有人中除了极少数之外的所有人。这些是完全陌生的问题,不是针对训练数据的模式匹配。该系统以前从未见过的方式结合了不同的数学思想。这不是记忆——这是在更高抽象级别的真正推理。

可解释性论证特别有趣。Brown指出,我们实际上对大语言模型神经元的访问比对人脑神经元的访问更好。我们可以冻结它们、重放它们、测试它们,并精确追踪发生了什么。当你给大语言模型一道数学题时,机制可解释性研究揭示了形成用于解决它的真实计算电路——模型在被训练仅预测下一个token时学会自己构建的电路。它没有记忆数学答案;它学会了如何做数学。

LeCun对此没有异议。他的批评更加微妙。他说的是,是的,大语言模型可以积累知识并在语言任务上表现超人的壮举。但它们从根本上缺乏来自体验学习的有根据的物理理解。它们没有人类理解那样的常识——物体如何相互作用的直觉物理、行动如何产生后果、世界实际上如何超越其语言描述而工作。

国际象棋类比有双面切割。Brown是对的,AlphaZero需要比任何人类国际象棋大师更多的比赛才能达到超人表现,但样本效率无关紧要——它赢了。LeCun也是对的,这证明了计算机与人类学习效率相比”国际象棋很糟糕”,当我们谈论通用智能时,这个差异很重要。

真正的分歧不是关于当前的大语言模型能力。这是关于达到人类级别或动物级别通用智能所需的内容。LeCun的立场:你不能仅通过文本达到这一点。你需要在视频等连续高维数据上训练的世界模型。你需要能够在抽象表示空间中预测后果的系统,而不仅仅是预测下一个token。

他的证据很鲜明:我们有通过律师执业考试和解决大学级微积分的大语言模型,但我们仍然没有能够学会清洁厨房的家用机器人或能够像青少年一样在20小时内学会驾驶的自动驾驶汽车。对文本有效的方法不能扩展到体验智能。

Brown的立场对当前轨迹更加乐观。大语言模型已经在展示未被明确编程的新兴能力——数学推理、创意问题解决、复杂的对话理解。随着我们扩展计算、数据和架构创新,这些能力将继续扩展。

意识问题很有说明性。两者都说没有(或”可能没有”)。LeCun很绝对:“绝对没有。“Brown有所保留:“在适当定义意识的情况下,可能没有。“两者都不相信我们处于末日的前夜——两者都说”文艺复兴”比机器人霸主更有可能。

使这场辩论如此宝贵的是,两位研究人员都很技术性、知识渊博,而且从根本上不同意理解需要什么。LeCun在计算机视觉、卷积网络以及现在世界模型方面的背景塑造了他的信念,即智能需要有根据的体验学习。Brown在DeepMind的工作,如AlphaGo,现在是Gemini,展示了当你将模式匹配扩展到前所未有的水平时可能发生的事情。

LeCun论证中的贯穿线——从他著名的”机器学习糟糕”幻灯片到他新创办的专注于世界模型的创业公司AMI——是深度学习和反向传播很棒,但我们需要将它们与根本不同的训练范例相结合。不是在文本上的下一个token预测,而是在视频和其他高带宽感觉数据上训练的联合嵌入预测架构(JEPA)。

问题不是二元的。大语言模型确实理解——它们提取模式、构建内部表示、执行推理。但它们的理解受到训练信号贫困的限制。语言是人类对现实的压缩符号表示。这是有损压缩。你可以从中恢复很多——超过大多数人预期——但你无法恢复一切。

关键要点

  • 核心分歧:Brown辩称大语言模型通过更高抽象级别的模式匹配真正理解;LeCun辩称没有物理基础,它们的理解是肤浅的
  • 信息密度差距:10^14字节在互联网所有文本上训练大语言模型,或在4岁孩子所看内容上训练视觉模型(16,000小时视频,2MB/秒速率)
  • 样本效率 vs 最终能力:猫比人类更快学会行走,但这不能说明它们更聪明——重要的是最终表现
  • 数学推理:2025年IMO结果显示大语言模型通过结合概念而不仅仅是模式匹配训练数据来解决新问题,达到顶级人类水平
  • 可解释性优势:我们对大语言模型神经元的访问比对人脑神经元的访问更好——可以冻结、重放和追踪问题解决期间形成的计算电路
  • 基础问题:大语言模型通过律师考试但我们仍然没有学会家务的机器人或像青少年一样在20小时内学会驾驶的自动驾驶汽车
  • 国际象棋类比:AlphaZero需要比人类国际象棋大师更多的比赛来达到超人表现——既证明了”样本低效率”也证明了”最终优越性”
  • 意识共识:尽管理解辩论,两位研究人员都同意大语言模型不具有意识(或”可能不”)
  • 未来展望:两者都预测”文艺复兴”而不是”末日”——两者都不害怕机器人霸主,两者都看到变革性的积极潜力
  • LeCun的前进之路:世界模型在高维连续数据(视频)上使用JEPA架构进行训练,而不仅仅是基于文本的下一个token预测
  • 机制可解释性:大语言模型在被训练仅预测下一个token时,自发地发展出内部计算电路来解决数学问题
  • 二元陷阱:” 它们是否理解”问题需要一个梯度答案——LeCun的”某种程度上是”比是或否更准确

全局视角

大语言模型理解吗?“某种程度上是”是诚实的答案。它们以更高抽象级别提取模式和执行推理,但它们的理解受到在语言上训练的限制——人类对现实的有损压缩。你可以从文本中恢复很多,但不能恢复物理直觉。这就是为什么我们有通过律师考试的模型但没有能够打扫厨房的机器人。