Hinton与Jeff Dean: 构建现代AI的合作
观点
这是那种罕见的对话,你直接从创造历史的人那里听到历史。Geoffrey Hinton(诺贝尔奖获得者,“AI教父”)和Jeff Dean(谷歌首席科学家,Gemini联合领导)自2012年以来一直在合作,他们的合作基本上创造了现代AI。
仅这些轶事就值得一看。AlexNet——开启深度学习革命的模型——是在Alex Krizhevsky父母家的卧室里用两个GPU训练的。“好消息是我们支付了GPU板的费用,但他的父母支付了电费,“Hinton开玩笑说。当他们决定出售时,他们专门成立了”DNN Research”公司以获得收购资金而非薪水(“一个是另一个的10倍”)。拍卖发生在NeurIPS期间的太浩湖赌场——“楼上我们在进行这次拍卖,你必须以一百万加价”,而老虎机在楼下响个不停。
扩展洞察在回顾中很有趣。Dean承认他在1990年的本科论文中建立了数据并行性,但”我自己甚至都没有真正意识到”——他犯了”一个巨大的错误”,没有在增加处理器时增加模型大小。Hinton承认他”直到2014年才真正完全理解这个教训”,即更大的模型就是效果更好。他们在Google Brain有一个简单的口号:“更大的模型,更多的数据,更多的计算。”
Research in Motion(黑莓)的故事对每个企业来说都是一个警示故事。Hinton通过一个实习生免费向他们提供了更好的语音识别技术。他们拒绝了,说他们”对语音识别不感兴趣”。Dean的讽刺回应:“嗯,你不需要它。你有键盘。“这来自一家加拿大公司,其所有者后来抱怨加拿大的研究”从未在加拿大被利用”。
关于transformer,Hinton承认他最初”没有给予足够的关注”,因为他对大脑合理的机制感兴趣。LSTM的顺序依赖性问题导致了”只需保存所有状态并关注它们”的洞察。结合专家混合,这些算法改进已经”相乘”——我们现在执行的计算量是10年前的数十亿倍。
关键要点
- AlexNet的训练预算是两个GPU和一个青少年的卧室——突破最初不需要数十亿美元的基础设施
- “更大的模型,更多的数据,更多的计算”是Google Brain的非正式扩展定律,早在正式扩展定律发表之前多年
- 企业盲目性杀死了黑莓:他们拒绝了免费的语音识别技术,因为他们有键盘
- 算法改进(transformer、稀疏模型)与硬件改进相乘——十年内计算增加”数十亿倍”