Chinchilla

/tʃɪnˈtʃɪlə/

Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal

research intermediate

Co je Chinchilla?

Chinchilla označuje jak konkrétní jazykový model, tak důležitější, vlivný paper o škálovacích zákonech z DeepMind publikovaný v březnu 2022. Paper “Training Compute-Optimal Large Language Models” zásadně změnil, jak AI průmysl přemýšlí o trénování velkých jazykových modelů.

Klíčový objev

DeepMind položil otázku: Při daném fixním výpočetním rozpočtu, jak byste měli vyvážit velikost modelu versus trénovací data?

Tréninkem přes 400 modelů (70M až 16B parametrů, na 5B až 500B tokenech) objevili:

For compute-optimal training, model size and number of training tokens should be scaled equally. For every doubling of model size, the number of training tokens should also double.

Pro výpočetně optimální trénování by měla velikost modelu a počet trénovacích tokenů růst stejně. Pro každé zdvojnásobení velikosti modelu by měl počet trénovacích tokenů také zdvojnásobit.

Šokující implikace: Většina existujících LLM byla výrazně nedostatečně trénována. Průmysl dělal modely větší, zatímco trénovací data zůstávala relativně konstantní—suboptimální přístup.

Chinchilla vs. Gopher

DeepMind testoval svou hypotézu tréninkem Chinchilla:

Model	Parametry	Trénovací tokeny	Výpočty
Gopher	280B	300B	Stejné
Chinchilla	70B	1,3T	Stejné

Přestože byl 4x menší, Chinchilla překonal Gopher téměř na každém benchmarku, protože byl trénován na 4x více datech.

Výsledky výkonu

Chinchilla uniformě překonal mnohem větší modely:

Gopher (280B parametrů)
GPT-3 (175B parametrů)
Jurassic-1 (178B parametrů)
Megatron-Turing NLG (530B parametrů)

Na MMLU dosáhl Chinchilla 67,5 % přesnosti—7% zlepšení oproti Gopher.

Proč to záleželo

Pro trénink: Laboratoře si uvědomily, že potřebují 11x více dat než modely éry GPT-3 používaly.

Pro inferenci: Menší, lépe trénované modely jsou levnější na provoz. Chinchilla je 4x menší znamená 4x nižší náklady na inferenci.

Pro průmysl: Posun zaměření z “dělat modely větší” na “trénovat modely déle na více datech.”

Chinchilla daň

Po Chinchilla se říká, že modely, které nejsou výpočetně optimální, platí “Chinchilla daň”—plýtvají výpočty na extra parametry místo dodatečného tréninku.

Omezení a aktualizace

Chinchilla škálovací zákony předpokládají:

Fixní výpočetní rozpočet
Single-epoch trénink (každý token viděn jednou)
Optimální rovnováhu mezi velikostí modelu a daty

Pozdější výzkum tyto zjištění zpřesnil:

Inference-optimální modely mohou těžit z mírně větší velikosti (protože náklady na inferenci se škálují s nasazením)
Multi-epoch trénink na vysoce kvalitních datech může překonat single-epoch na datech nižší kvality
Kvalita dat záleží stejně jako množství

Dědictví

Chinchilla zásadně změnila praktiky trénování LLM. Modely jako LLaMA explicitně následovaly Chinchilla-optimální poměry. Paper zůstává jedním z nejcitovanějších a nejvlivnějších prací v moderním AI výzkumu.

Související čtení

Scaling Laws - Širší výzkumná oblast
Pre-training - Kde se uplatňují poznatky Chinchilla

Related Terms

scaling laws pre training gopher