Lukasz Kaiser

Lukasz Kaiser

研究科学家 at OpenAI

Transformer 论文联合作者和 OpenAI 研究员,领导了 O1 推理模型的开发——'Transformer 八人组'中唯一仍在实验室工作的人。

openairesearchtransformersreasoning

关于 Lukasz Kaiser

Lukasz Kaiser 是 OpenAI 的深度学习研究员,也是 2017 年引入 Transformer 架构的里程碑式论文《Attention Is All You Need》的八位联合作者之一。Kaiser 在”Transformer 八人组”中的独特之处在于他的选择:虽然他的七位联合作者离开去创办了 AI 初创公司(包括 Cohere、Adept 和 Character.AI),但 Kaiser 仍然是一名工程师,最终于 2021 年加入了 OpenAI。

在 OpenAI,Kaiser 一直处于公司最重要突破的中心。他担任 GPT-4 的长上下文负责人,并领导了开发 O1 推理模型的研究团队——他称之为”新范式”,与纯 Transformer 扩展有着根本性的不同。当 O1 发布时,他在 X/Twitter 上的公告捕捉到了这一重要性:“我很高兴看到 o1 发布!与我的同事领导这项研究近 3 年,并在相关想法上工作更长时间,让我确信:这是一个新范式。”

在他的 AI 职业生涯之前,Kaiser 是巴黎狄德罗大学的终身研究员,专门研究逻辑和自动机理论。他获得了亚琛工业大学的博士学位和波兰弗罗茨瓦夫大学的硕士学位。这种形式化方法背景可能解释了他对 AI 系统中推理和验证的关注。

职业亮点

  • OpenAI(2021 至今):研究科学家,领导 O1/O3 推理模型开发,GPT-4 长上下文负责人
  • Google Brain(2014-2021):高级研究科学家,联合撰写 Transformer 论文
  • 巴黎狄德罗大学:逻辑和自动机理论终身研究员
  • 联合撰写:《Attention Is All You Need》(2017),TensorFlow 系统,Tensor2Tensor 和 Trax 库

重要观点

关于推理范式

Kaiser 在两个 AI 范式之间做出了明确的区分。最初的 Transformer 扩展范式——“只是预测下一个词,并在越来越多的数据上训练越来越大的模型”——由于数据限制而停滞。但推理范式有着根本性的不同:

“推理模型从少一个数量级的数据中学习。这个范式非常年轻,正处在非常陡峭的上升路径上……我们已经将它扩展了一点,但还可以进行更多的扩展。“

关于继续担任工程师

与成为创始人的 Transformer 联合作者不同,Kaiser 选择继续动手实践:

“欢迎……论文’attention is all you need’的作者们。女士们先生们,唯一仍然是工程师的人——Lukasz。”

这一选择使他处于 OpenAI 最重要工作的中心,从 GPT-4 到推理模型。

关于 AGI 时间线

Kaiser 不喜欢”AGI”这个术语,但强调实际现实:AI 现在可以在有用的任务上工作数小时,而不仅仅是在几秒钟内回答。对于基于计算机的任务——点击、写作、编程——自动化”来得很快”,而物理世界的机器人技术仍处于起步阶段。

关键引言

  • “新的范式是推理,而它才刚刚开始。这个范式非常年轻,正处在非常陡峭的上升路径上。“(关于推理模型)
  • “我认为不会在这个意义上出现寒冬。如果有什么的话,它实际上可能在未来一两年内有非常急剧的改进——这是一件几乎让人有点害怕的事情。“(关于 AI 进步)
  • “这是最终的瓶颈——GPU 和能源。“(关于约束)
  • “这是一个新范式。训练隐藏思维链的模型比原始 Transformer 更强大,从更少的数据中学习,泛化能力更好。“(关于 O1 发布)

相关阅读

Video Mentions

Video thumbnail

Reasoning models paradigm

Kaiser explains the reasoning paradigm: 'There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it's only on this very steep path up.'

Video thumbnail

Compute constraints

On the bottleneck: 'That's the ultimate bottleneck—GPUs and energy. I think Sam is basically getting as much more as is possible.'

Video thumbnail

Task automation timeline

On task automation: 'I believe reasoning models even currently are probably capable of doing most of them... these tasks are coming fast.'

Related People