Pre-training
/priː ˈtreɪnɪŋ/
Also known as: pretraining, foundation model training, base model training
Qu’est-ce que le pré-entraînement ?
Le pré-entraînement (pre-training) est la première phase de l’entraînement d’un grand modèle de langage, où le modèle apprend la compréhension générale du langage à partir de quantités massives de texte. Pensez-y comme lire des milliards de livres, articles et sites web pour apprendre la grammaire, les faits et les modèles du langage.
Pendant le pré-entraînement, le modèle traite des milliards de mots et prédit à plusieurs reprises le prochain token dans une séquence. Cette approche auto-supervisée—apprendre à partir de la structure des données elles-mêmes plutôt que d’étiquettes humaines—est ce qui permet aux LLM de développer de larges capacités.
Le pipeline de pré-entraînement
1. Collection de données Rassembler des textes diversifiés provenant de livres, articles, sites web, référentiels de code et autres sources. Le jeu de données FineWeb de Hugging Face, par exemple, contient 15 billions de tokens (44TB) provenant de 96 instantanés CommonCrawl.
2. Nettoyage des données Supprimer les doublons, les éléments non textuels, les problèmes de formatage et le contenu de faible qualité. La qualité des données affecte considérablement la qualité du modèle.
3. Tokenisation Convertir le texte en tokens numériques que le modèle peut traiter. Le texte est divisé en sous-mots ou caractères et mappé à des nombres uniques.
4. Entraînement La tâche principale : prédire le prochain token dans une séquence. Le modèle voit “Le chat s’est assis sur le” et apprend à prédire “tapis” (ou similaire). Répété des milliards de fois, cela construit une compréhension profonde du langage.
Ressources requises
Le pré-entraînement est extraordinairement intensif en ressources :
- Temps : Semaines à mois d’entraînement continu
- Calcul : Des milliers de GPU fonctionnant en parallèle
- Données : Des billions de tokens
- Coût : Des millions de dollars pour les modèles de pointe
C’est pourquoi la plupart des organisations ajustent finement les modèles existants plutôt que de pré-entraîner à partir de zéro.
Pré-entraînement vs. Ajustement fin
| Aspect | Pré-entraînement | Ajustement fin |
|---|---|---|
| Objectif | Compréhension générale du langage | Tâche ou comportement spécifique |
| Données | Des billions de tokens, divers | Des milliers à millions, ciblés |
| Temps | Semaines à mois | Heures à jours |
| Coût | Des millions de dollars | Des centaines à milliers |
| Qui le fait | Laboratoires de modèles de base | Quiconque avec un cas d’usage |
Le paradigme en deux phases
Le développement moderne des LLM est décrit en deux phases :
- Pré-entraînement : Construit les capacités linguistiques générales
- Post-entraînement : Raffine et aligne ces capacités (inclut l’ajustement fin, RLHF, DPO)
Comme Andrej Karpathy le décrit, le pré-entraînement est “une forme médiocre d’évolution”—sélectionner les modèles qui prédisent bien le texte internet. Le post-entraînement façonne ensuite cette capacité brute en quelque chose d’utile et sûr.
Développements de 2025
Reinforcement Pre-Training (RPT) : Les chercheurs de Microsoft ont recadré la prédiction du prochain token comme un problème de prise de décision séquentielle, améliorant potentiellement comment les modèles apprennent pendant le pré-entraînement.
Pénurie de données : Les données textuelles de haute qualité deviennent rares. Les laboratoires explorent les données synthétiques, les données multimodales et des méthodes d’entraînement plus efficaces.
Limites de mise à l’échelle : La pure mise à l’échelle du pré-entraînement montre des rendements décroissants, déplaçant l’accent vers les innovations de post-entraînement.
Lectures connexes
- Scaling Laws - La relation entre le calcul de pré-entraînement et la performance
- Andrej Karpathy - Appelle le pré-entraînement “évolution médiocre”
- John Schulman - Pionnier des techniques de post-entraînement