Jeff Dean在NeurIPS:改变芯片设计的纸巾素描和为何学术AI研究需要资金投入
观点
这是Jeff Dean在NeurIPS 2024上的演讲,刚刚发布TPU v7 (Ironwood),展现了他不同的一面 - 不是技术讲座,而是对AI创新如何真实发生以及为什么需要制度支持的战略反思。
改变硬件历史的纸巾素描。 2013年,Dean进行了一个粗略的计算:如果谷歌向1亿用户推出更好的语音识别模型,每个用户每天使用几分钟,就需要将谷歌整个数据中心容量翻倍 - 仅仅为了一个功能改进。“计算需求变得相当可怕。“这个思想实验启动了TPU项目。到2015年,TPUv1已进入数据中心 - 比CPU/GPU能效高30-70倍,速度快15-30倍。这是Transformer架构出现之前。
硬件/软件协同设计预测了整个ML领域。 每一代TPU都需要预测2.5-6年后ML计算的发展方向。“这不是一件容易的事。“策略是:添加可能重要的小硬件特性。如果它们有所成就,你就做好了准备。如果没有,你只是损失了一小块芯片面积。Transformer架构在谷歌诞生时,与TPU的时间线”非常相似” - 这是协同设计中的巧合。
Pathways抽象被低估了。 一个Python进程可以跨多个pod、多个建筑、多个城市地址20,000个TPU设备。Pathways自动判断使用哪个网络 - pod内的高速互连、pod间的数据中心网络、跨城市的长距离链接。所有Gemini训练都运行在Jax → Pathways → XLA → TPUs上。
学术研究资金是Dean的热情所在。 “整个深度学习革命建立在30-40年前的学术研究基础上。“神经网络和反向传播来自学术界。谷歌本身建立在TCP/IP、RISC处理器和斯坦福数字图书馆项目(资助了PageRank)的基础上。Dean倡导Lo研究所模式:3-5年的登月级资助,配有3-5名首席研究员和30-50名博士生,针对特定的社会影响。
医疗AI登月计划:从每个过去决策中学习,以指导每个未来决策。 Dean的愿景目标:利用每个过去的医疗决策帮助每个临床医生和每个人做出更好的决策。由于隐私、监管碎片化和数据格式不一致,这”非常困难”。需要联邦学习和隐私保护的ML,因为”你不能将医疗数据从它所在的地方转移出来。“
关键要点
- TPU v7 (Ironwood) - 每个pod 9,216个芯片,支持FP4精度,相比TPUv2峰值性能提升3,600倍
- 纸巾素描 - 推出更好的语音识别会使谷歌数据中心翻倍;TPU是存亡攸关的
- TPUv1 (2015) - 能效比CPU/GPU高30-70倍,速度快15-30倍;Transformer时代之前
- 硬件预测 - 每一代TPU都需要提前2.5-6年预测ML需求
- Pathways - 单个Python进程跨多个城市地址20,000个设备;所有Gemini训练使用这种方式
- 发布连续体 - 不是二选一的发布/不发布;Pixel功能先推出,SIGGRAPH论文随后发布
- 谷歌内部研究会议 - 6,000名与会者;“可能比NeurIPS领先一年”
- 3-5年登月计划 - Dean的首选时间范围:“不会太遥远以至于没有影响,也不会太短以至于不能雄心勃勃”
- Titan论文 - 混合Transformer + 递归;“有趣的想法来探索”但还未在Gemini中应用
- 医疗登月计划 - 从每个过去决策中学习;需要联邦学习,不能移动医疗数据
大局观
TPU的存在是因为一个纸巾计算表明,推出更好的语音识别会使谷歌数据中心容量翻倍。硬件/软件协同设计需要提前2.5-6年预测ML需求。今天,一个Python进程可以跨多个城市地址20,000个设备。这就是支撑前沿模型的基础设施。