杨立昆论AMI、世界模型以及为什么LLM还不够
深度学习的奠基人之一正在押注他未来十年走一条不同于业界其他人的道路。
视角
与杨立昆的这次对话是一堂由数十年技术直觉支撑的逆向思维大师课。当业界投入数十亿美元扩大LLM规模时,杨立昆正在推出AMI(高级机器智能),其基础是截然不同的论断:你不能仅通过文本达到人类级AI。
数学是明确的。训练一个有竞争力的LLM需要30万亿个令牌——大约10^14字节的文本数据。这基本上是互联网上所有免费可用文本的总和。对比视频数据:相同的10^14字节只代表以2MB/秒速率播放的15,000小时视频。也就是YouTube上传流量的30分钟。这相当于一个4岁孩子整个清醒人生所看到的内容。
杨立昆的论证不仅仅关乎数据效率——更是关乎信息密度和冗余性。LLM需要庞大的参数量是因为它们本质上在从文本中记忆孤立的事实。在视频上训练的世界模型学习物理、因果性和动力学的抽象表示。视觉数据中的冗余不是bug——它正是能够实现学习的原因。
这次对话特别有价值的地方在于历史轨迹。杨立昆从稀疏自编码器走到暹罗网络,再到对比学习,最后到JEPA,回顾了他20年的研究历程。每一次迭代都在解决一个具体问题:你如何训练一个系统学习有用的抽象表示,同时不会崩溃成平凡的解决方案?
他收敛到的答案是:联合嵌入预测架构(JEPA)。与其预测每个像素(对于非确定性的未来来说是不可能的),你在抽象表示空间中进行预测。你消除所有不可预测的细节——噪声、无关的纹理、量子不确定性——并聚焦于对规划重要的内容。
AMI的时机是精心选择的。当Meta、谷歌等大型实验室”闭门自守”变得更加保密时,杨立昆正在加倍投入开放研究。他的论证很实际:如果你不发表论文就不能叫研究,因为你只会被内部炒作所迷惑。科学家需要外部验证,突破需要发表的自由。
产品策略既雄心勃勃又务实。AMI将发表上游研究,同时围绕世界模型和规划系统构建实际产品。其赌注是基于LLM的代理系统”确实运行得不太好”,因为它们缺乏在抽象表示空间中预测后果和规划的能力。
对话中埋藏的一个技术细节特别引人注目:当前的对比方法(比如杨立昆在2005-2006年开创的那些)在其学习表示中的维度上限在200维左右,即使在ImageNet上也是如此。这就是天花板。最近的进展如Barlow Twins、VICReg和SigReg(LJEPA系统的一部分)通过最大化信息内容而不仅仅使用对比损失来突破这一限制。
CFD类比是完美的:我们不是通过模拟单个分子的气流来模拟飞机周围的气流,更不用说量子场了。我们使用在正确粒度级别上的抽象表示。这正是世界模型需要做的——不是模拟每个细节,而是学习用于规划的正确抽象。
关键要点
- AMI的论断:人类级AI需要在高维连续数据(视频)上训练的世界模型,而不仅仅是文本
- 数据效率差距:10^14字节要么在所有互联网文本上训练LLM,要么在15,000小时视频上训练视觉模型(YouTube流量的30分钟)
- JEPA架构:在抽象表示空间中预测,而非像素空间——消除不可预测的细节同时保留结构
- 研究策略:AMI将公开发表因为”除非你发表论文否则不能叫研究”——内部炒作会造成幻觉
- 技术演进:从对比学习(2005年)到VICReg/SigReg(2024年)——突破200维度的天花板
- 规划需求:智能需要后果预测+优化,而非仅仅是模式匹配
- 行业评论:大型实验室(谷歌、Meta、OpenAI)变得更加封闭,尽管开放研究具有历史性益处
- 产品愿景:用于规划系统的世界模型,在可靠性和样本效率上胜过基于LLM的代理
宏观图景
一位图灵奖得主正在押注他的下一个十年来验证一个论断:纯文本AI无法达到人类级智能。如果他是对的,业界数万亿美元的LLM投资正在建造工具,而非思维——通往AGI的真正道路贯穿视频、世界模型和学习物理。