Pre-training

/priː ˈtreɪnɪŋ/

Also known as: pretraining, foundation model training, base model training

technical intermediate

Qu’est-ce que le pré-entraînement ?

Le pré-entraînement (pre-training) est la première phase de l’entraînement d’un grand modèle de langage, où le modèle apprend la compréhension générale du langage à partir de quantités massives de texte. Pensez-y comme lire des milliards de livres, articles et sites web pour apprendre la grammaire, les faits et les modèles du langage.

Pendant le pré-entraînement, le modèle traite des milliards de mots et prédit à plusieurs reprises le prochain token dans une séquence. Cette approche auto-supervisée—apprendre à partir de la structure des données elles-mêmes plutôt que d’étiquettes humaines—est ce qui permet aux LLM de développer de larges capacités.

Le pipeline de pré-entraînement

1. Collection de données Rassembler des textes diversifiés provenant de livres, articles, sites web, référentiels de code et autres sources. Le jeu de données FineWeb de Hugging Face, par exemple, contient 15 billions de tokens (44TB) provenant de 96 instantanés CommonCrawl.

2. Nettoyage des données Supprimer les doublons, les éléments non textuels, les problèmes de formatage et le contenu de faible qualité. La qualité des données affecte considérablement la qualité du modèle.

3. Tokenisation Convertir le texte en tokens numériques que le modèle peut traiter. Le texte est divisé en sous-mots ou caractères et mappé à des nombres uniques.

4. Entraînement La tâche principale : prédire le prochain token dans une séquence. Le modèle voit “Le chat s’est assis sur le” et apprend à prédire “tapis” (ou similaire). Répété des milliards de fois, cela construit une compréhension profonde du langage.

Ressources requises

Le pré-entraînement est extraordinairement intensif en ressources :

  • Temps : Semaines à mois d’entraînement continu
  • Calcul : Des milliers de GPU fonctionnant en parallèle
  • Données : Des billions de tokens
  • Coût : Des millions de dollars pour les modèles de pointe

C’est pourquoi la plupart des organisations ajustent finement les modèles existants plutôt que de pré-entraîner à partir de zéro.

Pré-entraînement vs. Ajustement fin

AspectPré-entraînementAjustement fin
ObjectifCompréhension générale du langageTâche ou comportement spécifique
DonnéesDes billions de tokens, diversDes milliers à millions, ciblés
TempsSemaines à moisHeures à jours
CoûtDes millions de dollarsDes centaines à milliers
Qui le faitLaboratoires de modèles de baseQuiconque avec un cas d’usage

Le paradigme en deux phases

Le développement moderne des LLM est décrit en deux phases :

  1. Pré-entraînement : Construit les capacités linguistiques générales
  2. Post-entraînement : Raffine et aligne ces capacités (inclut l’ajustement fin, RLHF, DPO)

Comme Andrej Karpathy le décrit, le pré-entraînement est “une forme médiocre d’évolution”—sélectionner les modèles qui prédisent bien le texte internet. Le post-entraînement façonne ensuite cette capacité brute en quelque chose d’utile et sûr.

Développements de 2025

Reinforcement Pre-Training (RPT) : Les chercheurs de Microsoft ont recadré la prédiction du prochain token comme un problème de prise de décision séquentielle, améliorant potentiellement comment les modèles apprennent pendant le pré-entraînement.

Pénurie de données : Les données textuelles de haute qualité deviennent rares. Les laboratoires explorent les données synthétiques, les données multimodales et des méthodes d’entraînement plus efficaces.

Limites de mise à l’échelle : La pure mise à l’échelle du pré-entraînement montre des rendements décroissants, déplaçant l’accent vers les innovations de post-entraînement.

Lectures connexes

  • Scaling Laws - La relation entre le calcul de pré-entraînement et la performance
  • Andrej Karpathy - Appelle le pré-entraînement “évolution médiocre”
  • John Schulman - Pionnier des techniques de post-entraînement

Mentioned In

Video thumbnail

John Schulman

Le pré-entraînement est comme une forme médiocre d'évolution - vous sélectionnez les modèles qui prédisent bien le texte internet.