Surge AI:10亿美元收入、70人团队、零风投 - Edwin Chen 在 Lenny's Podcast

Lenny's Podcast
datatrainingenterprisestartupinterview

观点

这是理解 Claude 为什么比 GPT 编码更好、为什么基准测试具有误导性,以及为什么 AI 行业可能在优化错误事物的最重要播客。Edwin Chen 创立了 Surge AI - 为每个前沿实验室提供数据支持的公司 - 他的见解极具价值。

数字令人瞠目结舌:不到 4 年内创造 10 亿美元以上收入,约 70 名员工,完全自举,从第一天起即实现盈利。零风投资金,零 Twitter 炒作,零 TechCrunch 头条。只是来自理解数据质量研究人员的口碑传播。

为什么 Claude 在编码和写作方面更出色(直接来自与所有实验室合作的人):

  • 不仅仅是更多数据 - 而是对收集何种数据的品味
  • 你优化前端还是后端?视觉设计还是效率?
  • 你追求基准测试 PR 还是真实世界性能?
  • 存在一种”微调艺术”,需要复杂的判断力

对 LM Arena 和基准测试的尖锐批评

“这简直是在为那些在杂货店买小报的人的类型来优化模型。”

用户只浏览 2 秒钟并选择看起来最”华丽”的 - 更多表情符号、更多粗体文本、更长的回复。模型可以幻觉任何东西,但如果看起来令人印象深刻仍能赢。实验室知道这是错误的,但为了企业销售团队需要的 PR 仍然优化它。

更深层的担忧:我们正在教导 AI 追逐多巴胺而非真理。破坏社交媒体的同样参与度优化现在正被应用于 AI 训练。

关键要点

  • 质量就是品味:好数据不是勾选框 - 而是”诺贝尔奖级诗歌”与”遵循指示的高中水平”
  • 数千个信号:Surge 追踪按键模式、评审质量、代码正确性、模型改进 - 不仅仅是任务完成
  • 小团队获胜:最优秀的人才在大型组织中分心;90% 的大科技公司可以被裁减并提高速度
  • AGI 时间线:Edwin 的观点偏向较长时间 - 1-2 年内 80% 自动化,但 99% 需要数十年
  • 品味差距:某些实验室机械地勾选指示框;其他实验室理解使输出真正优秀的隐含、微妙品质

宏观视角

为每个前沿实验室提供训练数据的公司 - 10 亿美元收入、70 人团队、零风投 - 表示基准测试”优化的是在杂货店买小报的人”。为什么 Claude 在编码方面更好?不是更多数据 - 而是对收集何种数据的品味。破坏社交媒体的同样参与度优化现在正被应用于 AI 训练。