Surge AI: $1B Umsatz, 70 Mitarbeiter, Kein VC - Edwin Chen im Lenny's Podcast

Lenny's Podcast
datatrainingenterprisestartupinterview

Perspektive

Dies ist der wichtigste Podcast, um zu verstehen, warum Claude besser Code schreibt als GPT, warum Benchmarks irreführend sind und warum die KI-Industrie möglicherweise auf das Falsche optimiert. Edwin Chen hat Surge AI gegründet - das Datentechnik-Unternehmen, das das Training in allen Frontier-Labs antreibt - und seine Erkenntnisse sind Gold wert.

Die Zahlen sind absurd: $1B+ Umsatz in weniger als 4 Jahren, ~70 Mitarbeiter, vollständig eigenfinanziert, von Tag eins an profitabel. Kein VC-Geld, kein Twitter-Hype, keine TechCrunch-Schlagzeilen. Nur Mundpropaganda von Forschern, die Datenqualität verstanden.

Warum Claude besser beim Coding und Schreiben ist (direkt von jemandem, der mit allen Labs arbeitet):

  • Es geht nicht nur um mehr Daten - es geht um Geschmack bei der Auswahl der Daten
  • Optimiert man für Frontend vs Backend? Visuelles Design vs Effizienz?
  • Jagt man Benchmark-PR hinterher oder echter Leistung?
  • Es gibt eine “Kunst zum Post-Training”, die ausgefeiltesUrteilsvermögen erfordert

Die brutale Kritik an LM Arena und Benchmarks:

“Es optimiert wörtlich deine Modelle für die Art von Menschen, die Boulevardzeitungen im Supermarkt kaufen.”

Nutzer überfliegen für 2 Sekunden und wählen das, was am “blitzendsten” aussieht - mehr Emojis, mehr Fettdruck, längere Responses. Modelle können alles halluzinieren, gewinnen aber trotzdem, wenn sie beeindruckend aussehen. Labs wissen, dass das falsch ist, aber optimieren dafür trotzdem, weil Enterprise-Sales-Teams die PR brauchen.

Die tiefere Besorgnis: Wir bringen KI bei, Dopamin statt Wahrheit zu jagen. Die gleiche Engagement-Optimierung, die Social Media kaputt machte, wird jetzt auf KI-Training angewendet.

Wichtigste Erkenntnisse

  • Qualität ist Geschmack: Gute Daten sind keine Checkboxen - es ist “Nobel-Preis-würdige Poesie” vs “High-School-Level, das Anweisungen befolgt”
  • Tausende von Signalen: Surge verfolgt Tastaturmuster, Überprüfungsqualität, Code-Korrektheit, Modellverbesserung - nicht nur Task-Completion
  • Kleine Teams gewinnen: Die besten Leute werden von großen Organisationen abgelenkt; 90% der Big-Tech könnten gekürzt werden und schneller vorankommen
  • AGI-Timeline: Edwin ist am längeren Ende - 80% Automatisierung in 1-2 Jahren, aber 99% dauert Jahrzehnte
  • Die Geschmacks-Lücke: Einige Labs kreuzen mechanisch Anweisungs-Checkboxen ab; andere verstehen implizite, subtile Qualitäten, die Outputs wirklich gut machen

Großes Bild

Das Unternehmen, das Trainingsdaten für alle Frontier-Labs antreibt - $1B Umsatz, 70 Leute, Null VC - sagt, dass Benchmarks “auf Menschen optimieren, die Boulevardzeitungen im Supermarkt kaufen.” Warum ist Claude besser beim Coding? Nicht mehr Daten - Geschmack bei der Auswahl der Daten. Die gleiche Engagement-Optimierung, die Social Media brach, wird jetzt auf KI-Training angewendet.