Surge AI:10亿美元收入、70人团队、零风投 - Edwin Chen 在 Lenny's Podcast
datatrainingenterprisestartupinterview
观点
这是理解 Claude 为什么比 GPT 编码更好、为什么基准测试具有误导性,以及为什么 AI 行业可能在优化错误事物的最重要播客。Edwin Chen 创立了 Surge AI - 为每个前沿实验室提供数据支持的公司 - 他的见解极具价值。
数字令人瞠目结舌:不到 4 年内创造 10 亿美元以上收入,约 70 名员工,完全自举,从第一天起即实现盈利。零风投资金,零 Twitter 炒作,零 TechCrunch 头条。只是来自理解数据质量研究人员的口碑传播。
为什么 Claude 在编码和写作方面更出色(直接来自与所有实验室合作的人):
- 不仅仅是更多数据 - 而是对收集何种数据的品味
- 你优化前端还是后端?视觉设计还是效率?
- 你追求基准测试 PR 还是真实世界性能?
- 存在一种”微调艺术”,需要复杂的判断力
对 LM Arena 和基准测试的尖锐批评:
“这简直是在为那些在杂货店买小报的人的类型来优化模型。”
用户只浏览 2 秒钟并选择看起来最”华丽”的 - 更多表情符号、更多粗体文本、更长的回复。模型可以幻觉任何东西,但如果看起来令人印象深刻仍能赢。实验室知道这是错误的,但为了企业销售团队需要的 PR 仍然优化它。
更深层的担忧:我们正在教导 AI 追逐多巴胺而非真理。破坏社交媒体的同样参与度优化现在正被应用于 AI 训练。
关键要点
- 质量就是品味:好数据不是勾选框 - 而是”诺贝尔奖级诗歌”与”遵循指示的高中水平”
- 数千个信号:Surge 追踪按键模式、评审质量、代码正确性、模型改进 - 不仅仅是任务完成
- 小团队获胜:最优秀的人才在大型组织中分心;90% 的大科技公司可以被裁减并提高速度
- AGI 时间线:Edwin 的观点偏向较长时间 - 1-2 年内 80% 自动化,但 99% 需要数十年
- 品味差距:某些实验室机械地勾选指示框;其他实验室理解使输出真正优秀的隐含、微妙品质
宏观视角
为每个前沿实验室提供训练数据的公司 - 10 亿美元收入、70 人团队、零风投 - 表示基准测试”优化的是在杂货店买小报的人”。为什么 Claude 在编码方面更好?不是更多数据 - 而是对收集何种数据的品味。破坏社交媒体的同样参与度优化现在正被应用于 AI 训练。