Předtrénování
/priː ˈtreɪnɪŋ/
Also known as: pretraining, foundation model training, base model training
Co je předtrénování?
Předtrénování je první fáze tréninku velkého jazykového modelu, kde se model učí obecnému porozumění jazyku z masivních množství textu. Představte si to jako čtení miliard knih, článků a webových stránek k naučení gramatiky, faktů a vzorů v jazyce.
Během předtrénování model zpracovává miliardy slov a opakovaně predikuje další token v sekvenci. Tento self-supervised přístup—učení ze struktury samotných dat místo lidských štítků—je to, co umožňuje LLM vyvinout široké schopnosti.
Pipeline předtrénování
1. Sběr dat Shromažďování různorodého textu z knih, článků, webových stránek, kódových repozitářů a jiných zdrojů. FineWeb dataset od Hugging Face například obsahuje 15 trilionů tokenů (44TB) z 96 snímků CommonCrawl.
2. Čištění dat Odstranění duplikátů, netextových prvků, formátovacích problémů a obsahu nízké kvality. Kvalita dat dramaticky ovlivňuje kvalitu modelu.
3. Tokenizace Převod textu na numerické tokeny, které model může zpracovat. Text je rozdělen na podslova nebo znaky a mapován na jedinečná čísla.
4. Trénování Jádrový úkol: predikovat další token v sekvenci. Model vidí “Kočka seděla na” a učí se predikovat “koberci” (nebo podobně). Opakováno miliardy krát, to buduje hluboké porozumění jazyku.
Potřebné zdroje
Předtrénování je mimořádně náročné na zdroje:
- Čas: Týdny až měsíce kontinuálního tréninku
- Výpočty: Tisíce GPU běžících paralelně
- Data: Triliony tokenů
- Náklady: Miliony dolarů pro frontální modely
Proto většina organizací dolaďuje existující modely místo předtrénování od začátku.
Předtrénování vs. fine-tuning
| Aspekt | Předtrénování | Fine-tuning |
|---|---|---|
| Cíl | Obecné porozumění jazyku | Specifický úkol nebo chování |
| Data | Triliony tokenů, různorodé | Tisíce až miliony, cílené |
| Čas | Týdny až měsíce | Hodiny až dny |
| Náklady | Miliony dolarů | Stovky až tisíce |
| Kdo to dělá | Laboratoře foundačních modelů | Kdokoli s případem použití |
Dvoufázové paradigma
Moderní vývoj LLM je popsán ve dvou fázích:
- Předtrénování: Buduje univerzální jazykové schopnosti
- Post-trénink: Rafinuje a zarovnává tyto schopnosti (zahrnuje fine-tuning, RLHF, DPO)
Jak to popisuje Andrej Karpathy, předtrénování je “mizerná forma evoluce”—selekce pro modely, které dobře predikují internetový text. Post-trénink pak tvaruje tuto surovou schopnost na něco užitečného a bezpečného.
Vývoj 2025
Reinforcement Pre-Training (RPT): Výzkumníci Microsoftu přerámovali predikci dalšího tokenu jako problém sekvenčního rozhodování, potenciálně zlepšující, jak se modely učí během předtrénování.
Nedostatek dat: Kvalitní textová data se stávají vzácná. Laboratoře zkoumají syntetická data, multimodální data a efektivnější trénovací metody.
Limity škálování: Čisté škálování předtrénování ukazuje klesající výnosy, přesouvající zaměření na inovace post-tréninku.
Související čtení
- Scaling Laws - Vztah mezi výpočty předtrénování a výkonem
- Andrej Karpathy - Nazývá předtrénování “mizerná evoluce”
- John Schulman - Průkopník technik post-tréninku