Jeff Dean:现代AI模型诞生的15年经历
视角
这是Jeff Dean——Google第30号员工、MapReduce和BigTable的创造者、Google Brain的创始人、现任DeepMind首席科学家——讲述现代AI模型是如何诞生的决定性历史。这本质上是深度学习崛起的内部故事,由一位全程见证者讲述。
对规模估算的谦逊态度。 在1990年,Dean对神经网络的热情如此之高,他用一台32处理器的超立方体机器做了关于并行训练的毕业论文。“我完全错了。你需要大约一百万倍的处理能力才能训练出真正好的神经网络,而不是32倍。“这种对规模的直觉最终被证明是正确的——只是数量级上差得非常大。
Google Brain的起源故事非常随意。 2012年,Dean在Google微型厨房里碰到了Andrew Ng。Ng提到他的Stanford学生用神经网络在语音上取得了很好的效果。Dean的反应是:“哦,那很酷。我们应该训练非常大的神经网络。“那次对话成就了Google Brain和不信系统(之所以这样命名,“部分是因为人们不相信它会工作”)。
那个启动TPU的粗略估算。 Dean意识到,如果Google推出新的高质量语音识别模型,1亿人每天对着手机说3分钟话,他们将需要把Google整个数据中心容量翻倍。专门的硬件不是可选的——而是生存必需的。TPU v1相比CPU/GPU实现了15-30倍的加速和30-80倍的能效提升。这篇论文现在是ISCA 50年历史中被引用最多的论文。
每一项重大突破都只占一张幻灯片。 Word2vec和向量方向有语义意义的发现(king - man + woman = queen)。用于翻译的序列到序列模型。Transformers相比LSTM显示10-100倍的计算效率提升。在文本上进行自监督学习产生”几乎无限的训练样本”。Vision Transformer以4-20倍更少的计算量实现最先进的效果。稀疏模型在每次预测中只激活1-5%的参数。思维链提示。蒸馏。RLHF。
进展的框架令人担忧。 “三年前,我们真的为在八年级数学问题上得到15%的准确率而兴奋不已。“那个GSM8K基准——像”Sean有五个玩具,圣诞节又得到了两个”这样的中学应用题——现在基本上已被解决。
关键要点
- Google Brain始于微型厨房 —— Dean遇到Andrew Ng,决定”训练非常大的神经网络”
- 不信系统:“数学上错误但它有效” —— 异步训练,200个模型副本更新共享参数
- 猫论文(2012) —— 1000万个YouTube帧,无监督学习,神经元在没有标签的情况下学会了”猫”的概念
- Word2vec方向具有语义性 —— King - man + woman = queen;过去/未来时态方向
- TPU的必要性 —— 推出更好的语音识别会使Google数据中心容量翻倍
- TPUv1 —— 比CPU/GPU快15-30倍,能效提升30-80倍
- Transformers(2017) —— 相同精度下比LSTM少需10-100倍计算量;注意力优于循环
- 稀疏模型 —— 每次预测只激活1-5%的参数;Gemini使用这一技术
- 思维链 —— 模型通过”展示其工作”为每个token做更多计算
- 蒸馏 —— 3%的训练数据加软目标相当于100%数据加硬标签
- 路径系统 —— 单个Python进程可以跨越城市区域寻址10,000台TPU设备
- GSM8K进度 —— 3年前在8年级数学上的准确率为15%;现在基本解决
全景图
15年的复合突破——从猫论文到Transformers再到稀疏模型——创造了现代AI。每一步看起来都是渐进的;整合起来就是变革性的。曾经构建MapReduce的人现在运营的系统解决的是三年前被认为不可能的问题。