Ilya Sutskever 谈论为什么模型仍然无法像人类那样泛化
这位前OpenAI首席科学家解释了评估性能与真实能力之间的根本差距,为什么我们回到了研究时代,以及价值函数可能带来什么价值。
观点
这是Ilya Sutskever最深思熟虑的一次谈话 - 与Dwarkesh Patel坐下来深入讨论当前AI系统真正缺少什么。没有产品宣布,没有炒作 - 只是两个人在解决核心科学问题。
评估与现实的脱节是中心谜团。模型赢得国际数学奥林匹克金牌,但无法可靠地修复一个bug而不引入之前的问题。Ilya的解释很敏锐:强化学习训练优化得太狭隘了。团队查看评估指标,构建针对这些评估的环境,最终得到的相当于一个为竞技编程练习了10000小时的学生 - 技术上出众,但缺乏成就真正能力的"关键因素"。"这些模型更像第一个学生,但程度更甚。"
预训练的洞察被低估了。 当你进行预训练时,你不需要选择数据 - 你只需要获取所有数据。但强化学习训练需要选择环境,而这些选择通常是从基准反向工程得出的。"真正的奖励黑客是那些过分关注评估指标的人类研究人员。"
我们回到了研究时代。 Ilya将AI历史框架化为在不同时代之间摆动:2012-2020年是研究,2020-2025年是扩展,而现在 - 由于计算如此昂贵,预训练数据有限 - 我们正在回到研究。"真的相信如果只是把规模增加100倍,一切就会改变吗?我不认为这是真的。"
价值函数可能是关键。 对话不断回到人类如何学习的问题 - 十几岁的青少年驾驶后只开10小时车,研究人员从导师那里学习思维方式。Ilya指出一个中风患者失去情感处理能力并变得无法做出决定的案例。情感可能是进化产生的硬编码价值函数。当前的强化学习没有类似的东西 - 你在完成任务并对其评分之前得不到学习信号。
泛化问题是根本性的。 模型泛化"比人类差得非常多",这是"超级明显的"。即使在没有进化先验的领域(数学、编码),人类学习也更快更稳健。这表明除了需要更多数据或计算外,还有更深层的东西。
关键要点
- 评估性能 ≠ 真实能力 - 模型就像超级专业化的竞赛学生;它们缺乏一般的品味和判断力
- 强化学习训练造成了问题 - 团队针对评估指标进行优化,产生狭隘而非一般能力
- 我们回到了研究时代 - 单纯扩展不会改变能力;需要根本性突破
- 价值函数被探索不足 - 可能会绕过强化学习中的"等待任务完成"问题
- 人类情感可能是硬编码价值函数 - 进化赋予我们强大的决策信号,而模型缺乏这些信号
- 泛化差距是根本性的 - 人类的学习速度更快、更稳健,即使在非进化领域也是如此
- 预训练数据是有限的 - "只要扩展更多"的时代即将结束;需要新的方法
大局观
定义了2020-2025年AI发展的扩展时代可能即将结束。下一个突破不会来自更大的模型 - 而会来自解决泛化问题,这个问题使当前的AI感起来像一个聪慧但不可靠的实习生,而不是一个值得信赖的同事。


