Předtrénování

/priː ˈtreɪnɪŋ/

Also known as: pretraining, foundation model training, base model training

technical intermediate

Co je předtrénování?

Předtrénování je první fáze tréninku velkého jazykového modelu, kde se model učí obecnému porozumění jazyku z masivních množství textu. Představte si to jako čtení miliard knih, článků a webových stránek k naučení gramatiky, faktů a vzorů v jazyce.

Během předtrénování model zpracovává miliardy slov a opakovaně predikuje další token v sekvenci. Tento self-supervised přístup—učení ze struktury samotných dat místo lidských štítků—je to, co umožňuje LLM vyvinout široké schopnosti.

Pipeline předtrénování

1. Sběr dat Shromažďování různorodého textu z knih, článků, webových stránek, kódových repozitářů a jiných zdrojů. FineWeb dataset od Hugging Face například obsahuje 15 trilionů tokenů (44TB) z 96 snímků CommonCrawl.

2. Čištění dat Odstranění duplikátů, netextových prvků, formátovacích problémů a obsahu nízké kvality. Kvalita dat dramaticky ovlivňuje kvalitu modelu.

3. Tokenizace Převod textu na numerické tokeny, které model může zpracovat. Text je rozdělen na podslova nebo znaky a mapován na jedinečná čísla.

4. Trénování Jádrový úkol: predikovat další token v sekvenci. Model vidí “Kočka seděla na” a učí se predikovat “koberci” (nebo podobně). Opakováno miliardy krát, to buduje hluboké porozumění jazyku.

Potřebné zdroje

Předtrénování je mimořádně náročné na zdroje:

  • Čas: Týdny až měsíce kontinuálního tréninku
  • Výpočty: Tisíce GPU běžících paralelně
  • Data: Triliony tokenů
  • Náklady: Miliony dolarů pro frontální modely

Proto většina organizací dolaďuje existující modely místo předtrénování od začátku.

Předtrénování vs. fine-tuning

AspektPředtrénováníFine-tuning
CílObecné porozumění jazykuSpecifický úkol nebo chování
DataTriliony tokenů, různorodéTisíce až miliony, cílené
ČasTýdny až měsíceHodiny až dny
NákladyMiliony dolarůStovky až tisíce
Kdo to děláLaboratoře foundačních modelůKdokoli s případem použití

Dvoufázové paradigma

Moderní vývoj LLM je popsán ve dvou fázích:

  1. Předtrénování: Buduje univerzální jazykové schopnosti
  2. Post-trénink: Rafinuje a zarovnává tyto schopnosti (zahrnuje fine-tuning, RLHF, DPO)

Jak to popisuje Andrej Karpathy, předtrénování je “mizerná forma evoluce”—selekce pro modely, které dobře predikují internetový text. Post-trénink pak tvaruje tuto surovou schopnost na něco užitečného a bezpečného.

Vývoj 2025

Reinforcement Pre-Training (RPT): Výzkumníci Microsoftu přerámovali predikci dalšího tokenu jako problém sekvenčního rozhodování, potenciálně zlepšující, jak se modely učí během předtrénování.

Nedostatek dat: Kvalitní textová data se stávají vzácná. Laboratoře zkoumají syntetická data, multimodální data a efektivnější trénovací metody.

Limity škálování: Čisté škálování předtrénování ukazuje klesající výnosy, přesouvající zaměření na inovace post-tréninku.

Související čtení

Mentioned In

Video thumbnail

John Schulman

Pre-training is like a crappy form of evolution - you're selecting for models that predict internet text well.