Edwin Chen

Co-founder & CEO at Surge AI

Surge AI 创始人。10 亿美元收入,70 人,无 VC。为每个前沿实验室提供训练数据。称基准测试是'为小报买家优化'。

@echen LinkedIn

datatrainingenterprisestartup

关于 Edwin Chen

Edwin Chen 是 Surge AI 的联合创始人兼 CEO,这家数据公司为每个前沿 AI 实验室提供训练数据。该公司在不到 4 年内达到 10 亿美元以上的收入,约 70 名员工,完全自力更生,从第一天起就盈利。

职业亮点

Surge AI(2020 年至今):联合创始人兼 CEO
10 亿美元以上收入:不到 4 年,约 70 名员工
自力更生:无 VC 资金,从第一天起就盈利
客户:每个前沿 AI 实验室都使用 Surge 的训练数据
Quora/Twitter:前 ML 工程师

重要观点

关于为什么 Claude 更好

数据品味,而非数量:

“Why is Claude better at coding and writing? It’s not more data - it’s taste in what data to collect. Are you optimizing for front-end vs backend? Visual design vs efficiency? Chasing PR benchmarks or real-world performance? There’s an art to post-training that requires sophisticated judgment.”

“为什么 Claude 在编码和写作方面更好?不是更多的数据——而是收集什么数据的品味。你是在优化前端还是后端?视觉设计还是效率?追逐 PR 基准还是真实世界性能?后训练有一种需要复杂判断的艺术。“

关于基准问题

对 LM Arena 的残酷批评:

“LM Arena benchmarks are literally optimizing your models for the type of people who buy tabloids at supermarkets. Users glance for 2 seconds and pick whatever looks ‘flashiest’ - more emojis, more bold text, longer responses. Models can hallucinate everything but still win if they look impressive.”

“LM Arena 基准实际上是在为超市买小报的那类人优化你的模型。用户瞥一眼 2 秒钟,选择看起来’最华丽’的——更多表情符号、更多粗体文本、更长的回复。模型可以幻想一切,但如果看起来令人印象深刻就仍然获胜。“

关于更深层的问题

“We’re teaching AI to chase dopamine instead of truth. The same engagement optimization that broke social media is now being applied to AI training. Labs know it’s bad but optimize for it anyway because sales teams need PR.”

“我们在教 AI 追逐多巴胺而不是真相。破坏社交媒体的同样参与度优化现在被应用于 AI 训练。实验室知道这不好,但无论如何都要优化它,因为销售团队需要 PR。“

关于质量与复选框

“Good data isn’t checkboxes - it’s ‘Nobel-prize level poetry’ vs ‘high school level that follows instructions.’ Some labs mechanically check instruction boxes; others understand the implicit, subtle qualities that make outputs actually good.”

“好的数据不是复选框——而是’诺贝尔奖级别的诗歌’与’遵循指令的高中水平’。一些实验室机械地检查指令框;其他实验室理解使输出真正好的隐含、微妙的品质。“

关键语录

“数据品味,而非数量。”
“为小报买家优化。”
“教 AI 追逐多巴胺。“

Video Mentions

为什么 Claude 更好

为什么 Claude 在编码和写作方面更好?不是更多的数据——而是收集什么数据的品味。你是在优化前端还是后端?视觉设计还是效率?追逐 PR 基准还是真实世界性能?

基准批评

LM Arena 基准实际上是在为超市买小报的那类人优化你的模型。用户瞥一眼 2 秒钟,选择看起来'最华丽'的——更多表情符号、更多粗体文本、更长的回复。

多巴胺vs真相

我们在教 AI 追逐多巴胺而不是真相。破坏社交媒体的同样参与度优化现在被应用于 AI 训练。

Related People

dario amodei