Edwin Chen

Co-founder & CEO at Surge AI

Surge AI Gründer. 1B$ Umsatz, 70 Leute, kein VC. Liefert Trainingsdaten an jedes Frontier-Labor. Sagt, Benchmarks sind 'Optimierung für Boulevardzeitungs-Käufer.'

@echen LinkedIn

datatrainingenterprisestartup

Über Edwin Chen

Edwin Chen ist Mitgründer und CEO von Surge AI, dem Datenunternehmen, das Trainingsdaten an jedes Frontier-KI-Labor liefert. Das Unternehmen erreichte in unter 4 Jahren 1B$+ Umsatz mit ~70 Mitarbeitern, vollständig bootstrapped und von Tag eins an profitabel.

Karriere-Höhepunkte

Surge AI (2020-heute): Mitgründer und CEO
1B$+ Umsatz: Unter 4 Jahren, ~70 Mitarbeiter
Bootstrapped: Keine VC-Finanzierung, von Tag eins an profitabel
Kunden: Jedes Frontier-KI-Labor nutzt Surge für Trainingsdaten
Quora/Twitter: Ehemaliger ML-Engineer

Bemerkenswerte Positionen

Über warum Claude besser ist

Geschmack bei Daten, nicht Volumen:

“Why is Claude better at coding and writing? It’s not more data - it’s taste in what data to collect. Are you optimizing for front-end vs backend? Visual design vs efficiency? Chasing PR benchmarks or real-world performance? There’s an art to post-training that requires sophisticated judgment.”

Deutsche Übersetzung: “Warum ist Claude besser beim Codieren und Schreiben? Es sind nicht mehr Daten - es ist Geschmack bei welchen Daten zu sammeln. Optimierst du für Front-end vs. Backend? Visuelles Design vs. Effizienz? Jagst du PR-Benchmarks oder Real-World-Performance? Es gibt eine Kunst beim Post-Training, die ausgefeiltes Urteilsvermögen erfordert.”

Über Benchmark-Probleme

Eine brutale Kritik an LM Arena:

“LM Arena benchmarks are literally optimizing your models for the type of people who buy tabloids at supermarkets. Users glance for 2 seconds and pick whatever looks ‘flashiest’ - more emojis, more bold text, longer responses. Models can hallucinate everything but still win if they look impressive.”

Deutsche Übersetzung: “LM Arena Benchmarks optimieren buchstäblich deine Modelle für die Art von Leuten, die Boulevardzeitungen im Supermarkt kaufen. Nutzer schauen 2 Sekunden und wählen, was ‘auffälliger’ aussieht - mehr Emojis, mehr Fettdruck, längere Antworten. Modelle können alles halluzinieren, aber trotzdem gewinnen, wenn sie beeindruckend aussehen.”

Über das tiefere Problem

“We’re teaching AI to chase dopamine instead of truth. The same engagement optimization that broke social media is now being applied to AI training. Labs know it’s bad but optimize for it anyway because sales teams need PR.”

Deutsche Übersetzung: “Wir bringen KI bei, Dopamin zu jagen statt Wahrheit. Die gleiche Engagement-Optimierung, die soziale Medien kaputt gemacht hat, wird jetzt auf KI-Training angewendet. Labore wissen, es ist schlecht, aber optimieren trotzdem dafür, weil Verkaufsteams PR brauchen.”

Über Qualität vs. Checkboxen

“Good data isn’t checkboxes - it’s ‘Nobel-prize level poetry’ vs ‘high school level that follows instructions.’ Some labs mechanically check instruction boxes; others understand the implicit, subtle qualities that make outputs actually good.”

Deutsche Übersetzung: “Gute Daten sind keine Checkboxen - es ist ‘Nobelpreis-Niveau-Poesie’ vs. ‘Highschool-Niveau, das Anweisungen folgt.’ Einige Labore checken mechanisch Anweisungs-Boxen ab; andere verstehen die impliziten, subtilen Qualitäten, die Outputs tatsächlich gut machen.”

Wichtige Zitate

“Geschmack bei Daten, nicht Volumen.”
“Optimierung für Boulevardzeitungs-Käufer.”
“KI beibringen, Dopamin zu jagen.”

Weiterführende Literatur

Scaling Laws - Was Surges Daten ermöglichen
Dario Amodei - Anthropic CEO, Surge-Kunde

Video Mentions

Warum Claude besser ist

Warum ist Claude besser beim Codieren und Schreiben? Es sind nicht mehr Daten - es ist Geschmack bei welchen Daten zu sammeln. Optimierst du für Front-end vs. Backend? Visuelles Design vs. Effizienz? Jagst du PR-Benchmarks oder Real-World-Performance?

Benchmark-Kritik

LM Arena Benchmarks optimieren buchstäblich deine Modelle für die Art von Leuten, die Boulevardzeitungen im Supermarkt kaufen. Nutzer schauen 2 Sekunden und wählen, was 'auffälliger' aussieht - mehr Emojis, mehr Fettdruck, längere Antworten.

Dopamin vs. Wahrheit

Wir bringen KI bei, Dopamin zu jagen statt Wahrheit. Die gleiche Engagement-Optimierung, die soziale Medien kaputt gemacht hat, wird jetzt auf KI-Training angewendet.

Related People

dario amodei