Surge AI : 1 milliard $ de revenus, 70 employés, zéro capital-risque - Edwin Chen sur le podcast de Lenny

Lenny's Podcast
datatrainingenterprisestartupinterview

Perspective

C’est le podcast le plus important pour comprendre pourquoi Claude code mieux que GPT, pourquoi les benchmarks sont trompeurs, et pourquoi l’industrie de l’IA pourrait optimiser pour les mauvaises choses. Edwin Chen a créé Surge AI - la société de données qui alimente l’entraînement dans tous les laboratoires de pointe - et ses perspectives sont précieuses.

Les chiffres sont absurdes : plus d’1 milliard $ de revenus en moins de 4 ans, environ 70 employés, complètement bootstrappé, rentable dès le premier jour. Pas d’argent de capital-risque, pas de buzz sur Twitter, pas de gros titres TechCrunch. Juste du bouche-à-oreille de chercheurs qui comprenaient la qualité des données.

Pourquoi Claude est meilleur en programmation et en écriture (directement de quelqu’un qui travaille avec tous les laboratoires) :

  • Ce n’est pas juste plus de données - c’est le goût dans les données à collecter
  • Optimisez-vous pour le front-end ou le backend ? Le design visuel ou l’efficacité ?
  • Chassez-vous le PR benchmark ou la performance en conditions réelles ?
  • Il y a un “art du post-training” qui nécessite un jugement sophistiqué

La critique brutale de LM Arena et des benchmarks :

“Ça optimise littéralement vos modèles pour les types de personnes qui achètent des tabloïds à l’épicerie.”

Les utilisateurs parcourent pendant 2 secondes et choisissent ce qui semble le plus “tape-à-l’œil” - plus d’emojis, plus de texte en gras, des réponses plus longues. Les modèles peuvent tout halluciner mais gagner quand même s’ils ont l’air impressionnants. Les laboratoires savent que c’est faux mais optimisent quand même parce que les équipes de vente entreprise ont besoin du PR.

La préoccupation plus profonde : On apprend à l’IA à chasser la dopamine au lieu de la vérité. La même optimisation de l’engagement qui a cassé les réseaux sociaux est maintenant appliquée à l’entraînement de l’IA.

Points clés

  • La qualité, c’est le goût : De bonnes données ne sont pas des cases à cocher - c’est “de la poésie digne d’un prix Nobel” vs “du niveau lycée qui suit les instructions”
  • Des milliers de signaux : Surge suit les patterns de frappe, la qualité des révisions, l’exactitude du code, l’amélioration du modèle - pas seulement l’achèvement de la tâche
  • Les petites équipes gagnent : Les meilleures personnes sont distraites par les grandes organisations ; 90% des grandes entreprises tech pourraient être réduites et avancer plus vite
  • Timeline AGI : Edwin est du côté le plus long - 80% d’automatisation en 1-2 ans, mais 99% prend des décennies
  • L’écart de goût : Certains laboratoires cochent robotiquement les cases d’instructions ; d’autres comprennent les qualités implicites et subtiles qui rendent les résultats vraiment bons

Vue d’ensemble

L’entreprise qui alimente les données d’entraînement pour tous les laboratoires de pointe - 1 milliard $ de revenus, 70 employés, zéro capital-risque - dit que les benchmarks “optimisent pour les gens qui achètent des tabloïds à l’épicerie.” Pourquoi Claude est meilleur en programmation ? Pas plus de données - le goût dans les données à collecter. La même optimisation de l’engagement qui a cassé les réseaux sociaux est appliquée à l’entraînement de l’IA.