Transformer 联合发明者:'推理模型才刚刚开始——预计 1-2 年内会有大幅改进'

Jon Hernandez AI
future-of-workagentsenterpriseresearchinterview

观点

Lukasz Kaiser 在 AI 历史上占据着独特的地位:他是 2017 年《Attention Is All You Need》论文的联合作者之一,该论文引入了 Transformer 架构,而且他是八位作者中唯一选择继续担任工程师而非创办初创公司的人。现在他在 OpenAI 工作,领导了 O1 推理模型的研究——他称之为”新范式”,与扩展 Transformer 有着根本性的不同。这次访谈提供了一个罕见的内部视角,了解 AI 的真正发展方向。

关于推理范式: “There was this transformer paradigm when we were scaling up transformers… But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it’s only on this very steep path up.”(过去有 Transformer 范式,当时我们在扩展 Transformer……但现在有了新的范式,那就是推理,而它才刚刚开始。我感觉这个范式非常年轻,正处在非常陡峭的上升路径上。)Kaiser 区分了纯 Transformer 扩展的递减回报和推理模型尚未开发的潜力,他说推理模型”从少一个数量级的数据中学习”。

关于不会有 AI 寒冬: “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.”(我认为不会在这个意义上出现寒冬。如果有什么的话,它实际上可能在未来一两年内有非常急剧的改进——这是一件几乎让人有点害怕的事情。)虽然有些人推测会遇到扩展瓶颈,但 Kaiser 认为推理范式提供了一个新的陡峭攀升,还有很大的发展空间。

关于最终瓶颈: “That’s the ultimate bottleneck. Like it’s GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry.”(这是最终的瓶颈。就是 GPU 和能源。我认为 Sam 基本上在尽可能地获取更多。有些人担心我们能否使用它们。我不担心。)约束不在于研究能力或想法——而在于原始计算能力。他们能获得的每一个 GPU 都会被有效利用。

关于任务与工作: “I believe reasoning models even currently are probably capable of doing most of them… these tasks are coming fast.”(我相信推理模型即使在目前可能也能够完成其中的大部分……这些任务来得很快。)Kaiser 阐明了这一区别:AI 不会立即取代整个工作,但基于计算机的任务——点击、写作、编程——现在正在被自动化。“在几个月内”,编程 AI 从足够好变成了真正有用。

关于新范式的年轻: “We’ve scaled it up a little bit but there could be way more scaling it up. There’s way more research methods to make it better.”(我们已经将它扩展了一点,但还可以进行更多的扩展。还有更多的研究方法可以让它变得更好。)与因数据限制而停滞的 Transformer 扩展不同,推理范式才刚刚开始。更大的基础模型加上推理可能会产生复合改进。

关键要点

  • 两个范式,不同的轨迹 - 纯 Transformer 扩展受数据限制;推理模型正处在陡峭的上升路径上,有增长空间
  • 先是计算机任务,物理世界稍后 - 预计基于屏幕的工作会快速自动化;机器人技术和物理任务需要更长时间
  • 编程是金丝雀 - AI 编程能力在短短三个月内从”还可以”变成了”真正的帮助”;“一半的时间人们首先要求 Codex 为他们编程”
  • 没有 AGI——但这重要吗? - Kaiser 不喜欢 AGI 这个术语;更重要的是 AI 现在可以”工作几个小时并做一些有用的事情”
  • 蒸馏与扩展的权衡 - OpenAI 在训练尽可能大的模型和使其足够便宜以服务 8 亿多用户之间取得平衡
  • 1-2 年内大幅改进的前景 - 推理范式加上新的计算基础设施可能很快产生巨大的能力提升

大局观

Kaiser 的框架解决了”AI 进步正在放缓”和”AI 进步正在加速”之间的明显矛盾——它们谈论的是不同的范式。纯 Transformer 扩展已经成熟;推理模型才刚刚开始。对于规划 AI 采用的组织来说,这表明 12-24 个月后可用的能力可能比今天显著更强,特别是对于受益于延长”思考时间”的任务。能够工作数小时而非数秒的 AI 时代比大多数人预期的来得更快。