Surge AI: $1B Revenue, 70 People, Zero VC - Edwin Chen en Lenny's Podcast

Lenny's Podcast
datatrainingenterprisestartupinterview

Perspectiva

Este es el podcast más importante para entender por qué Claude programa mejor que GPT, por qué los benchmarks son engañosos, y por qué la industria de IA podría estar optimizando cosas equivocadas. Edwin Chen construyó Surge AI - la empresa de datos que potencia el entrenamiento en todos los laboratorios fronterizos - y sus percepciones son oro.

Los números son absurdos: $1B+ de ingresos en menos de 4 años, ~70 empleados, completamente autofinanciado, rentable desde el primer día. Sin dinero de VC, sin hype en Twitter, sin titulares de TechCrunch. Solo el boca a boca de investigadores que comprendían la calidad de datos.

Por qué Claude es mejor en programación y escritura (directamente de alguien que trabaja con todos los laboratorios):

  • No es solo más datos - es gusto en qué datos recopilar
  • ¿Optimizas para frontend vs backend? ¿Diseño visual vs eficiencia?
  • ¿Persigues PR en benchmarks o rendimiento en el mundo real?
  • Hay un “arte en el post-entrenamiento” que requiere juicio sofisticado

La crítica brutal de LM Arena y los benchmarks:

“Literalmente estás optimizando tus modelos para el tipo de personas que compran tabloides en la tienda de abarrotes.”

Los usuarios escanean por 2 segundos y eligen lo que se ve más “llamativo” - más emojis, más texto en negrita, respuestas más largas. Los modelos pueden alucinar todo pero aún ganan si se ven impresionantes. Los laboratorios saben que esto está mal pero optimizan para ello de todas formas porque los equipos de ventas empresariales necesitan el PR.

La preocupación más profunda: Estamos enseñando a la IA a perseguir dopamina en lugar de verdad. La misma optimización de engagement que rompió las redes sociales ahora se está aplicando al entrenamiento de IA.

Puntos Clave

  • La calidad es gusto: Los buenos datos no son casillas de verificación - es “poesía ganadora del Premio Nobel” vs “nivel de secundaria que sigue instrucciones”
  • Miles de señales: Surge rastrea patrones de pulsación, calidad de revisión, corrección de código, mejora de modelos - no solo finalización de tareas
  • Pequeños equipos ganan: Las mejores personas se distraen en grandes organizaciones; el 90% de las grandes tecnológicas podrían reducirse y moverse más rápido
  • Timeline de AGI: Edwin está en el extremo más largo - automatización del 80% en 1-2 años, pero el 99% toma décadas
  • La brecha de gusto: Algunos laboratorios verifican robóticamente las casillas de instrucciones; otros entienden cualidades implícitas y sutiles que hacen que los resultados sean realmente buenos

Cuadro General

La empresa que potencia datos de entrenamiento para cada laboratorio fronterizo - $1B de ingresos, 70 personas, cero VC - dice que los benchmarks están “optimizando para personas que compran tabloides en la tienda de abarrotes.” ¿Por qué Claude es mejor en programación? No más datos - gusto en qué datos recopilar. La misma optimización de engagement que rompió las redes sociales se está aplicando al entrenamiento de IA.