Surge AI: $1B príjmy, 70 ľudí, bez VC - Edwin Chen v Lenny's Podcast
Perspektíva
Toto je najpodstatnejší podcast na pochopenie toho, prečo Claude kóduje lepšie ako GPT, prečo sú benchmarky zavádzajúce a prečo by AI priemysel mohol optimalizovať pre zlé veci. Edwin Chen vytvoril Surge AI - spoločnosť poskytujúcu údaje na tréning vo všetkých najmodernejších laboratóriach - a jeho poznatky sú cenné.
Čísla sú nezvyčajné: $1B+ príjmy za menej ako 4 roky, ~70 zamestnancov, úplne financovaní sami sebou, ziskový od prvého dňa. Bez peňazí od VC, bez mediálneho šumu, bez titulkov TechCrunchu. Len slovo od slov od výskumných pracovníkov, ktorí pochopili kvalitu údajov.
Prečo je Claude lepší pri kódovaní a písaní (priamo od niekoho, kto pracuje so všetkými laboratóriami):
- Nejde len o viac údajov - ide o chuť v tom, aké údaje zbierať
- Optimalizujete pre front-end vs backend? Vizuálny dizajn vs efektívnosť?
- Honite PR benchmarkov alebo skutočný výkon v praxi?
- Existuje „umenie v post-tréningu”, ktoré vyžaduje sofistikovaný úsudok
Ostré kritiky LM Arena a benchmarkov:
„Doslova optimalizujete svoje modely pre typ ľudí, ktorí kupujú bulvár v supermarkete.”
Používatelia skúmajú 2 sekundy a vyberú si čokoľvek, čo vyzerá „najvtipnejšie” - viac emotikonov, viac tučného textu, dlhšie odpovede. Modely môžu halucinuovať všetko, ale stále zvíťazí, ak vyzerajú pôsobivo. Laboratóriá vedia, že je to zlé, ale optimalizujú to aj tak, pretože predajné tímy potrebujú PR.
Hlbšia obava: Učíme AI honať dopamín namiesto pravdy. To isté optimalizovanie zapojenia, ktoré zničilo sociálne médiá, sa teraz aplikuje na tréning AI.
Kľúčové poznatky
- Kvalita je chuť: Dobré údaje nie sú začiarkavacie políčka - je to „poézia na úrovni Nobelovej ceny” vs „stredoškolská úroveň, ktorá dodržiava pokyny”
- Tisíce signálov: Surge sleduje vzory klapiek, kvalitu recenzií, správnosť kódu, zlepšenie modelu - nie len dokončenie úlohy
- Malé tímy vyhrávajú: Najlepší ľudia sa rozptýlia vo veľkých organizáciách; 90% veľkých technologických spoločností by mohlo byť znížené a pohybovalo by sa rýchlejšie
- Časová os AGI: Edwin je na dlhšom konci - 80% automatizácie v 1-2 rokoch, ale 99% trvá desaťročia
- Medzera v chuti: Niektoré laboratóriá mechanicky kontrolujú políčka pokynov; ostatné rozumejú implicitným, jemným kvalitám, ktoré robia výstupy skutočne dobrými
Veľký obrázok
Spoločnosť, ktorá poskytuje tréningové údaje pre každé najmodernejšie laboratórium - $1B príjmy, 70 ľudí, bez VC - hovorí, že benchmarky sú „optimalizujúce pre ľudí, ktorí kupujú bulvár v supermarkete.” Prečo je Claude lepší pri kódovaní? Nie viac údajov - chuť v tom, aké údaje zbierať. To isté optimalizovanie zapojenia, ktoré zlomilo sociálne médiá, sa aplikuje na tréning AI.