Edwin Chen

Co-founder & CEO at Surge AI

Fondateur de Surge AI. 1 Md$ de revenus, 70 personnes, pas de VC. Fournit des données d'entraînement à tous les laboratoires frontières. Dit que les benchmarks 'optimisent pour les acheteurs de tabloïds.'

@echen LinkedIn

datatrainingenterprisestartup

À propos d’Edwin Chen

Edwin Chen est le co-fondateur et PDG de Surge AI, la société de données qui fournit des données d’entraînement à tous les laboratoires d’IA frontières. L’entreprise a atteint 1 Md$+ de revenus en moins de 4 ans avec ~70 employés, entièrement bootstrappée et rentable dès le premier jour.

Temps forts de carrière

Surge AI (2020-présent) : Co-fondateur et PDG
1 Md$+ de revenus : En moins de 4 ans, ~70 employés
Bootstrappé : Pas de financement VC, rentable dès le premier jour
Clients : Tous les laboratoires d’IA frontières utilisent Surge pour les données d’entraînement
Quora/Twitter : Ancien ingénieur ML

Positions notables

Sur pourquoi Claude est meilleur

Goût dans les données, pas volume :

“Why is Claude better at coding and writing? It’s not more data - it’s taste in what data to collect. Are you optimizing for front-end vs backend? Visual design vs efficiency? Chasing PR benchmarks or real-world performance? There’s an art to post-training that requires sophisticated judgment.”

“Pourquoi Claude est meilleur en codage et écriture ? Ce n’est pas plus de données - c’est le goût dans quelles données collecter. Optimisez-vous pour le front-end vs backend ? Design visuel vs efficacité ? Poursuivre les benchmarks PR ou la performance réelle ? Il y a un art au post-entraînement qui nécessite un jugement sophistiqué.”

Sur les problèmes de benchmarks

Une critique brutale de LM Arena :

“LM Arena benchmarks are literally optimizing your models for the type of people who buy tabloids at supermarkets. Users glance for 2 seconds and pick whatever looks ‘flashiest’ - more emojis, more bold text, longer responses. Models can hallucinate everything but still win if they look impressive.”

“Les benchmarks LM Arena optimisent littéralement vos modèles pour le type de personnes qui achètent des tabloïds au supermarché. Les utilisateurs regardent 2 secondes et choisissent ce qui semble le plus ‘flashy’ - plus d’emojis, plus de texte gras, réponses plus longues. Les modèles peuvent tout halluciner mais quand même gagner s’ils semblent impressionnants.”

Sur le problème plus profond

“We’re teaching AI to chase dopamine instead of truth. The same engagement optimization that broke social media is now being applied to AI training. Labs know it’s bad but optimize for it anyway because sales teams need PR.”

“Nous enseignons à l’IA à poursuivre la dopamine au lieu de la vérité. La même optimisation d’engagement qui a cassé les réseaux sociaux est maintenant appliquée à l’entraînement de l’IA. Les labos savent que c’est mauvais mais optimisent quand même parce que les équipes commerciales ont besoin de PR.”

Citations clés

“Goût dans les données, pas volume.”
“Optimiser pour les acheteurs de tabloïds.”
“Enseigner à l’IA à poursuivre la dopamine.”

Lectures connexes

Scaling Laws - Ce que les données de Surge permettent
Dario Amodei - PDG d’Anthropic, client de Surge

Video Mentions

Pourquoi Claude est meilleur

Pourquoi Claude est meilleur en codage et écriture ? Ce n'est pas plus de données - c'est le goût dans quelles données collecter. Optimisez-vous pour le front-end vs backend ? Design visuel vs efficacité ? Poursuivre les benchmarks PR ou la performance réelle ?

Critique des benchmarks

Les benchmarks LM Arena optimisent littéralement vos modèles pour le type de personnes qui achètent des tabloïds au supermarché. Les utilisateurs regardent 2 secondes et choisissent ce qui semble le plus 'flashy' - plus d'emojis, plus de texte gras, réponses plus longues.

Dopamine vs vérité

Nous enseignons à l'IA à poursuivre la dopamine au lieu de la vérité. La même optimisation d'engagement qui a cassé les réseaux sociaux est maintenant appliquée à l'entraînement de l'IA.

Related People

dario amodei