Chinchilla

/tʃɪnˈtʃɪlə/

Also known as: Chinchilla scaling laws, compute-optimal training, Chinchilla optimal

research intermediate

Co je Chinchilla?

Chinchilla označuje jak konkrétní jazykový model, tak důležitější, vlivný paper o škálovacích zákonech z DeepMind publikovaný v březnu 2022. Paper “Training Compute-Optimal Large Language Models” zásadně změnil, jak AI průmysl přemýšlí o trénování velkých jazykových modelů.

Klíčový objev

DeepMind položil otázku: Při daném fixním výpočetním rozpočtu, jak byste měli vyvážit velikost modelu versus trénovací data?

Tréninkem přes 400 modelů (70M až 16B parametrů, na 5B až 500B tokenech) objevili:

For compute-optimal training, model size and number of training tokens should be scaled equally. For every doubling of model size, the number of training tokens should also double.

Pro výpočetně optimální trénování by měla velikost modelu a počet trénovacích tokenů růst stejně. Pro každé zdvojnásobení velikosti modelu by měl počet trénovacích tokenů také zdvojnásobit.

Šokující implikace: Většina existujících LLM byla výrazně nedostatečně trénována. Průmysl dělal modely větší, zatímco trénovací data zůstávala relativně konstantní—suboptimální přístup.

Chinchilla vs. Gopher

DeepMind testoval svou hypotézu tréninkem Chinchilla:

ModelParametryTrénovací tokenyVýpočty
Gopher280B300BStejné
Chinchilla70B1,3TStejné

Přestože byl 4x menší, Chinchilla překonal Gopher téměř na každém benchmarku, protože byl trénován na 4x více datech.

Výsledky výkonu

Chinchilla uniformě překonal mnohem větší modely:

  • Gopher (280B parametrů)
  • GPT-3 (175B parametrů)
  • Jurassic-1 (178B parametrů)
  • Megatron-Turing NLG (530B parametrů)

Na MMLU dosáhl Chinchilla 67,5 % přesnosti—7% zlepšení oproti Gopher.

Proč to záleželo

Pro trénink: Laboratoře si uvědomily, že potřebují 11x více dat než modely éry GPT-3 používaly.

Pro inferenci: Menší, lépe trénované modely jsou levnější na provoz. Chinchilla je 4x menší znamená 4x nižší náklady na inferenci.

Pro průmysl: Posun zaměření z “dělat modely větší” na “trénovat modely déle na více datech.”

Chinchilla daň

Po Chinchilla se říká, že modely, které nejsou výpočetně optimální, platí “Chinchilla daň”—plýtvají výpočty na extra parametry místo dodatečného tréninku.

Omezení a aktualizace

Chinchilla škálovací zákony předpokládají:

  • Fixní výpočetní rozpočet
  • Single-epoch trénink (každý token viděn jednou)
  • Optimální rovnováhu mezi velikostí modelu a daty

Pozdější výzkum tyto zjištění zpřesnil:

  • Inference-optimální modely mohou těžit z mírně větší velikosti (protože náklady na inferenci se škálují s nasazením)
  • Multi-epoch trénink na vysoce kvalitních datech může překonat single-epoch na datech nižší kvality
  • Kvalita dat záleží stejně jako množství

Dědictví

Chinchilla zásadně změnila praktiky trénování LLM. Modely jako LLaMA explicitně následovaly Chinchilla-optimální poměry. Paper zůstává jedním z nejcitovanějších a nejvlivnějších prací v moderním AI výzkumu.

Související čtení