Nathan Lambert

Senior Research Scientist & Post-Training Lead

researchopen-sourcerlhfpost-training

O Nathanovi Lambertovi

Nathan Lambert je Senior Research Scientist a veduci post-trainingu v Allen Institute for AI (AI2), kde vedie pracu na TULU — jednom z mala plne otvorenych post-trainingovych pipeline pre jazykove modely. Je tiez autorom knihy The RLHF Book, definitvnej referencie o reinforcement learning z ludskej spatnej vazby, a zakladatelom newslettera Interconnects AI.

Pred AI2 vybudoval Lambert vyskummy tim pre RLHF v Hugging Face a prispel integraciami reinforcement learningu do siroko pouzivanej kniznice Diffusers. Ma doktorat z UC Berkeley, kde pracoval na prieniku robotiky, modeloveho reinforcement learningu a riadenia, so stazami vo Facebook AI a DeepMind.

Lambert je jednym z najhlasnejsich obhajcov vyvoja open-source AI v USA, pravidelne pise o konkurencnej dynamike medzi uzavretymi a otvorenymi modelmi a o strategickych dosledkoch cinskych open-weight vydani.

Karierne milniky

Senior Research Scientist & veduci post-trainingu v AI2 (sucasnost)
Viedol vyvoj post-trainingovej pipeline TULU (aplikovanej na modely Llama a OLMo)
Byvaly veduci vyskumneho timu RLHF v Hugging Face
Autor knihy The RLHF Book
Ph.D. v oblasti elektrotechniky a informatiky, UC Berkeley
Staze vo Facebook AI Research a DeepMind
Zakladatel newslettera Interconnects AI

Vyznacne postoje

O kulturnej vyhode Anthropicu

Lambert vnima uspech Anthropicu s Claude Code ako kulturny fenomen, nie len technicky. Firma "posobi ako najmenej chaoticka" z hlavnych laboratorii a ich stavka na nastroje pre kod vytvorila organicke nadsenie komunity, ktore marketing nedokaze replikovat.

O pre-trainingu vs. post-trainingu

Stavia sa proti narativu "pre-training je mrtvy", argumentujuc, ze vacsina vypoctov stale smeruje do pre-trainingu a bude v tom pokracovat, kym sa kvalita zakladneho modelu nenasyti — v tom bode budu RL vypocty jednoducho bezat dlhsie. Ocakava vznik predplatnych urovni za 2 000 dolarov v roku 2026.

O cinskej strategii open-weight

Opisuje cinske firmy ako realisticke ohladne svojej pozicie: zapadne firmy nebudu platit za cinske API predplatne kvoli bezpecnostnym obavam, takze open-weight modely su strategickym tahom pre globalny vplyv a pristup na trh. Ocakava viac tvorcov otvorenych modelov v roku 2026 ako v roku 2025, pricom mnohi vyznacni budu z Ciny.

O strukturalnych vyhodach Google

Argumentuje, ze Google ma historicku vyhodu v infrastrukture AI, pretoze vyvija vsetko od vrchu po spodok (vlastne TPU, datacentrala) bez platenia "sialenych" marzi Nvidie — nakladova vyhoda, ktora sa pri skale nasobbu.

Klucove citaty

"The hype over Anthropic's Claude Opus 4.5 model has been absolutely insane... culturally Anthropic is known for betting very hard on code." (Hype okolo modelu Anthropic Claude Opus 4.5 bol absolutne sialeny... kulturne je Anthropic znamy tym, ze velmi silno stavi na kod.) — o Anthropicu
"I still think most of the compute is going in at pre-training because you can still make a model better." (Stale si myslim, ze vacsina vypoctoveho vykonu ide do pre-trainingu, pretoze model sa da stale zlepsovat.) — o skalovani
"US models are currently better and we use them... I try Chinese models and I'm like, fun, but I don't go back to it." (Americke modely su momentalne lepsie a pouzivame ich... Skusam cinske modely a poviem si, zabavne, ale nevraciam sa k nim.) — o kvalite modelov

Suvisiace clanky

Reinforcement Learning - Lambertova klucova vyskumna oblast
Scaling Laws - Ustredna tema v jeho analyze pokroku AI
AI Agents - Diskutuje vyzvu nasadenia agentov

Video Appearances

State of AI & Open Models

Diskutuje o hype okolo Anthropic Claude Opus 4.5, cinskej open-weight konkurencii a o tom, preco infrastrukturne vyhody Google mozu rozhodnut preteky v AI. Vedie post-training TULU v AI2.

at 00:05:00

Related People

Sebastian Raschka Lex Fridman