Gemini 3内部:200名研究人员如何构建前沿AI
DeepMind如何组织前沿模型开发
Sebastian Bourjou领导Google DeepMind Gemini 3的预训练——这是他的第一次播客。他的背景涵盖Gopher、Chinchilla和Retro,他为前沿AI研究实际如何组织提供了罕见的可见性。与Matt Turk的访谈涵盖了从架构决策到”研究品味”在实践中意味着什么的一切。
关于构建系统而非模型: “We’re not really building a model anymore. I think we’re really building a system at this point. People have sometimes this view that we’re just training a neural network architecture and that’s it. But it’s really the entire system around the network.”(我们实际上不再是在构建模型了。我认为我们在这一点上真的是在构建系统。人们有时认为我们只是在训练神经网络架构,仅此而已。但实际上是网络周围的整个系统。)这重新定义了”训练”的含义——它是基础设施、协调、评估和集成,而不仅仅是神经网络。
关于研究品味: “Being allergic to complexity… we have a certain budget of complexity we can use and a certain amount of research risk we can accumulate before things go bad. Often times we don’t necessarily want to use the best performance version of a research idea, but we’d rather trade off some performance for a slightly lower complexity version.”(对复杂性过敏…我们有一定的复杂性预算可以使用,以及在事情变糟之前可以积累的一定量的研究风险。很多时候我们不一定想使用研究想法的最佳性能版本,而是宁愿用一些性能换取稍低复杂性的版本。)反直觉的洞见:简单胜过最优,因为它能实现更多的未来进展。
关于最佳模型测试: “The amount of time people spend using the model to make themselves more productive internally is increasing over time. Every new generation of models, it’s pretty clear the model can do new things and help us in our research.”(人们花在使用模型让自己在内部更高效的时间随着时间的推移在增加。每一代新模型,很明显模型可以做新的事情并帮助我们的研究。)内部使用——研究人员使用自己的模型进行研究——是基准测试之外的真正评估。
关于团队规模: “It’s a fairly large team at this point. Maybe 150-200 people work on a day-to-day on the pre-training side between data, model, infrastructure, evals.”(这是一个相当大的团队。也许150-200人每天在预训练方面工作,涉及数据、模型、基础设施、评估。)这是在前沿模型上取得进展所需的规模——协调这么多人”实际上相当复杂”。
关于AI用于AI研究: “Especially in the next year with more agentic workflows being enabled… that should be able to really accelerate our work. A lot of the day-to-day work is running experiments, babysitting experiments, analyzing data, collecting results. The interesting part is forming hypotheses and designing new experiments.”(特别是在明年有更多代理工作流程被启用的情况下…这应该能够真正加速我们的工作。很多日常工作是运行实验、照看实验、分析数据、收集结果。有趣的部分是形成假设和设计新实验。)元循环:使用AI通过自动化机械部分来加速AI研究。
Bourjou关于大规模AI研究的5个洞见
- 系统胜于模型 - Gemini 3不仅仅是神经网络;它是基础设施、数据管道、评估和集成工作,这些合起来比架构更重要
- 150-200人协调预训练 - 前沿模型开发的规模需要大规模协调,让每个人都取得进展比少数人冲在前面更重要
- 研究品味=避免复杂性 - 最好的研究人员不追求最优解决方案;他们追求足够简单以实现未来进展的解决方案
- 内部使用是真正的评估 - 在基准测试之外,真正的测试是研究人员自己在每一代新模型中是否更高效
- 代理工作流程加速研究 - DeepMind期望AI自动化实验运行和分析,让研究人员专注于假设形成
这对AI组织意味着什么
Bourjou的观点重新定义了在前沿构建AI实际意味着什么:这是一个需要150人以上的系统集成问题,在这里研究品味意味着主动避免复杂性,模型本身越来越多地加速自己的开发。对于思考AI能力的组织,含义很清楚——即使是最复杂的AI实验室也将此视为基础设施和协调工作,而不是魔法模型训练。