Chinchilla
/tʃɪnˈtʃɪlə/
Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal
Co je Chinchilla?
Chinchilla označuje jak konkrétní jazykový model, tak důležitější, vlivný paper o škálovacích zákonech z DeepMind publikovaný v březnu 2022. Paper “Training Compute-Optimal Large Language Models” zásadně změnil, jak AI průmysl přemýšlí o trénování velkých jazykových modelů.
Klíčový objev
DeepMind položil otázku: Při daném fixním výpočetním rozpočtu, jak byste měli vyvážit velikost modelu versus trénovací data?
Tréninkem přes 400 modelů (70M až 16B parametrů, na 5B až 500B tokenech) objevili:
For compute-optimal training, model size and number of training tokens should be scaled equally. For every doubling of model size, the number of training tokens should also double.
Pro výpočetně optimální trénování by měla velikost modelu a počet trénovacích tokenů růst stejně. Pro každé zdvojnásobení velikosti modelu by měl počet trénovacích tokenů také zdvojnásobit.
Šokující implikace: Většina existujících LLM byla výrazně nedostatečně trénována. Průmysl dělal modely větší, zatímco trénovací data zůstávala relativně konstantní—suboptimální přístup.
Chinchilla vs. Gopher
DeepMind testoval svou hypotézu tréninkem Chinchilla:
| Model | Parametry | Trénovací tokeny | Výpočty |
|---|---|---|---|
| Gopher | 280B | 300B | Stejné |
| Chinchilla | 70B | 1,3T | Stejné |
Přestože byl 4x menší, Chinchilla překonal Gopher téměř na každém benchmarku, protože byl trénován na 4x více datech.
Výsledky výkonu
Chinchilla uniformě překonal mnohem větší modely:
- Gopher (280B parametrů)
- GPT-3 (175B parametrů)
- Jurassic-1 (178B parametrů)
- Megatron-Turing NLG (530B parametrů)
Na MMLU dosáhl Chinchilla 67,5 % přesnosti—7% zlepšení oproti Gopher.
Proč to záleželo
Pro trénink: Laboratoře si uvědomily, že potřebují 11x více dat než modely éry GPT-3 používaly.
Pro inferenci: Menší, lépe trénované modely jsou levnější na provoz. Chinchilla je 4x menší znamená 4x nižší náklady na inferenci.
Pro průmysl: Posun zaměření z “dělat modely větší” na “trénovat modely déle na více datech.”
Chinchilla daň
Po Chinchilla se říká, že modely, které nejsou výpočetně optimální, platí “Chinchilla daň”—plýtvají výpočty na extra parametry místo dodatečného tréninku.
Omezení a aktualizace
Chinchilla škálovací zákony předpokládají:
- Fixní výpočetní rozpočet
- Single-epoch trénink (každý token viděn jednou)
- Optimální rovnováhu mezi velikostí modelu a daty
Pozdější výzkum tyto zjištění zpřesnil:
- Inference-optimální modely mohou těžit z mírně větší velikosti (protože náklady na inferenci se škálují s nasazením)
- Multi-epoch trénink na vysoce kvalitních datech může překonat single-epoch na datech nižší kvality
- Kvalita dat záleží stejně jako množství
Dědictví
Chinchilla zásadně změnila praktiky trénování LLM. Modely jako LLaMA explicitně následovaly Chinchilla-optimální poměry. Paper zůstává jedním z nejcitovanějších a nejvlivnějších prací v moderním AI výzkumu.
Související čtení
- Scaling Laws - Širší výzkumná oblast
- Pre-training - Kde se uplatňují poznatky Chinchilla