Surge AI: $1B Umsatz, 70 Mitarbeiter, Kein VC - Edwin Chen im Lenny's Podcast
Perspektive
Dies ist der wichtigste Podcast, um zu verstehen, warum Claude besser Code schreibt als GPT, warum Benchmarks irreführend sind und warum die KI-Industrie möglicherweise auf das Falsche optimiert. Edwin Chen hat Surge AI gegründet - das Datentechnik-Unternehmen, das das Training in allen Frontier-Labs antreibt - und seine Erkenntnisse sind Gold wert.
Die Zahlen sind absurd: $1B+ Umsatz in weniger als 4 Jahren, ~70 Mitarbeiter, vollständig eigenfinanziert, von Tag eins an profitabel. Kein VC-Geld, kein Twitter-Hype, keine TechCrunch-Schlagzeilen. Nur Mundpropaganda von Forschern, die Datenqualität verstanden.
Warum Claude besser beim Coding und Schreiben ist (direkt von jemandem, der mit allen Labs arbeitet):
- Es geht nicht nur um mehr Daten - es geht um Geschmack bei der Auswahl der Daten
- Optimiert man für Frontend vs Backend? Visuelles Design vs Effizienz?
- Jagt man Benchmark-PR hinterher oder echter Leistung?
- Es gibt eine “Kunst zum Post-Training”, die ausgefeiltesUrteilsvermögen erfordert
Die brutale Kritik an LM Arena und Benchmarks:
“Es optimiert wörtlich deine Modelle für die Art von Menschen, die Boulevardzeitungen im Supermarkt kaufen.”
Nutzer überfliegen für 2 Sekunden und wählen das, was am “blitzendsten” aussieht - mehr Emojis, mehr Fettdruck, längere Responses. Modelle können alles halluzinieren, gewinnen aber trotzdem, wenn sie beeindruckend aussehen. Labs wissen, dass das falsch ist, aber optimieren dafür trotzdem, weil Enterprise-Sales-Teams die PR brauchen.
Die tiefere Besorgnis: Wir bringen KI bei, Dopamin statt Wahrheit zu jagen. Die gleiche Engagement-Optimierung, die Social Media kaputt machte, wird jetzt auf KI-Training angewendet.
Wichtigste Erkenntnisse
- Qualität ist Geschmack: Gute Daten sind keine Checkboxen - es ist “Nobel-Preis-würdige Poesie” vs “High-School-Level, das Anweisungen befolgt”
- Tausende von Signalen: Surge verfolgt Tastaturmuster, Überprüfungsqualität, Code-Korrektheit, Modellverbesserung - nicht nur Task-Completion
- Kleine Teams gewinnen: Die besten Leute werden von großen Organisationen abgelenkt; 90% der Big-Tech könnten gekürzt werden und schneller vorankommen
- AGI-Timeline: Edwin ist am längeren Ende - 80% Automatisierung in 1-2 Jahren, aber 99% dauert Jahrzehnte
- Die Geschmacks-Lücke: Einige Labs kreuzen mechanisch Anweisungs-Checkboxen ab; andere verstehen implizite, subtile Qualitäten, die Outputs wirklich gut machen
Großes Bild
Das Unternehmen, das Trainingsdaten für alle Frontier-Labs antreibt - $1B Umsatz, 70 Leute, Null VC - sagt, dass Benchmarks “auf Menschen optimieren, die Boulevardzeitungen im Supermarkt kaufen.” Warum ist Claude besser beim Coding? Nicht mehr Daten - Geschmack bei der Auswahl der Daten. Die gleiche Engagement-Optimierung, die Social Media brach, wird jetzt auf KI-Training angewendet.