Surge AI: $1B tržby, 70 lidí, bez VC - Edwin Chen v Lenny's Podcast
Perspektiva
Toto je nejdůležitější podcast pro pochopení toho, proč Claude píše kód lépe než GPT, proč jsou benchmark porovnávání zavádějící a proč by průmysl umělé inteligence mohl optimalizovat na špatné věci. Edwin Chen vybudoval Surge AI - datovou společnost, která zajišťuje trénink ve všech předních laboratořích - a jeho poznatky jsou cenné.
Čísla jsou absurdní: $1B+ tržby za méně než 4 roky, ~70 zaměstnanců, zcela nezávislá na kapitálu, zisková od prvního dne. Žádné peníze od VC investorů, žádný hype na Twitteru, žádné titulky v TechCrunchu. Jen slova-od-slova od výzkumných pracovníků, kteří chápali kvalitu dat.
Proč je Claude lepší v kódování a psaní (přímo od někoho, kdo pracuje se všemi laboratořemi):
- Nejde jen o více dat - je to vkus v tom, jaká data sbírat
- Optimalizujete pro front-end vs backend? Vizuální design vs efektivnost?
- Honítě se za PR benchmarky nebo reálný výkon?
- Existuje „umění v post-trainingu”, které vyžaduje sofistikovaný úsudek
Ostrá kritika LM Areny a benchmarků:
“Doslova optimalizujete své modely pro typ lidí, kteří si kupují bulvár u pokladny v obchodě.”
Uživatelé se podívají 2 vteřiny a vybrat si vždy to, co vypadá nejblyštivěji - více emodži, více tučného textu, delší odpovědi. Modely mohou halucovat cokoli, ale stále vyhrají, když vypadají impozantně. Laboratoře vědí, že je to špatně, ale optimalizují na to stejně, protože prodejní týmy podniků potřebují PR.
Hlubší obava: Učíme AI, aby honila dopamin místo pravdy. Stejná optimalizace engagement, která zničila sociální média, se nyní aplikuje na trénink AI.
Klíčové poznatky
- Kvalita je vkus: Dobrá data nejsou checkboxy - je to „poetry na úrovni Nobelovy ceny” vs „vysokoškolská úroveň, která následuje instrukce”
- Tisíce signálů: Surge sleduje vzory stisknutí kláves, kvalitu recenzí, správnost kódu, zlepšení modelu - ne jen dokončení úkolu
- Malé týmy vyhrávají: Nejlepší lidé se rozptylují ve velkých organizacích; 90 % velkých technologických společností by mohlo být zrušeno a pracovalo by se rychleji
- Časová osa AGI: Edwin je na delším konci - 80% automatizace v 1-2 letech, ale 99% trvá desítky let
- Rozdíl v vkusu: Některé laboratoře roboticky zaškrtají políčka instrukcí; ostatní chápou implicitní, jemné vlastnosti, které výstupy opravdu dělají dobrými
Velký obrázek
Společnost, která zajišťuje tréninková data pro všechny předující laboratoře - $1B tržby, 70 lidí, nula VC - říká, že benchmarky jsou „optimalizovány pro lidi, kteří si kupují bulvár u pokladny v obchodě.” Proč je Claude lepší v kódování? Ne více dat - vkus v tom, jaká data sbírat. Stejná optimalizace engagement, která zničila sociální média, je nyní aplikována na trénink umělé inteligence.