Pre-Training
/priː ˈtreɪnɪŋ/
Also known as: pretraining, foundation model training, base model training
Was ist Pre-Training?
Pre-Training ist die erste Phase beim Training eines großen Sprachmodells, bei der das Modell allgemeines Sprachverständnis aus massiven Mengen an Text lernt. Denken Sie daran, als würde man Milliarden von Büchern, Artikeln und Websites lesen, um Grammatik, Fakten und Muster in der Sprache zu lernen.
Während des Pre-Trainings verarbeitet das Modell Milliarden von Wörtern und sagt wiederholt das nächste Token in einer Sequenz vorher. Dieser selbstüberwachte Ansatz - das Lernen aus der Struktur der Daten selbst statt aus menschlichen Labels - ist es, was LLMs ermöglicht, breite Fähigkeiten zu entwickeln.
Die Pre-Training-Pipeline
1. Datensammlung Sammeln vielfältiger Texte aus Büchern, Artikeln, Websites, Code-Repositories und anderen Quellen. Hugging Faces FineWeb-Dataset enthält beispielsweise 15 Billionen Token (44TB) aus 96 CommonCrawl-Snapshots.
2. Datenbereinigung Entfernen von Duplikaten, nicht-textuellen Elementen, Formatierungsproblemen und Inhalten niedriger Qualität. Datenqualität beeinflusst die Modellqualität dramatisch.
3. Tokenisierung Konvertieren von Text in numerische Token, die das Modell verarbeiten kann. Text wird in Subwörter oder Zeichen aufgeteilt und eindeutigen Nummern zugeordnet.
4. Training Die Kernaufgabe: das nächste Token in einer Sequenz vorhersagen. Das Modell sieht “Die Katze saß auf der” und lernt, “Matte” (oder ähnliches) vorherzusagen. Milliardenfach wiederholt, baut dies tiefes Sprachverständnis auf.
Erforderliche Ressourcen
Pre-Training ist außerordentlich ressourcenintensiv:
- Zeit: Wochen bis Monate kontinuierliches Training
- Rechenleistung: Tausende von GPUs, die parallel laufen
- Daten: Billionen von Token
- Kosten: Millionen von Dollar für Frontier-Modelle
Deshalb fine-tunen die meisten Organisationen bestehende Modelle, anstatt von Grund auf zu pre-trainen.
Pre-Training vs. Fine-Tuning
| Aspekt | Pre-Training | Fine-Tuning |
|---|---|---|
| Ziel | Allgemeines Sprachverständnis | Spezifische Aufgabe oder Verhalten |
| Daten | Billionen von Token, vielfältig | Tausende bis Millionen, gezielt |
| Zeit | Wochen bis Monate | Stunden bis Tage |
| Kosten | Millionen von Dollar | Hunderte bis Tausende |
| Wer macht es | Foundation-Model-Labs | Jeder mit einem Use Case |
Das Zwei-Phasen-Paradigma
Moderne LLM-Entwicklung wird in zwei Phasen beschrieben:
- Pre-Training: Baut allgemeine Sprachfähigkeiten auf
- Post-Training: Verfeinert und richtet diese Fähigkeiten aus (beinhaltet Fine-Tuning, RLHF, DPO)
Wie Andrej Karpathy es beschreibt, ist Pre-Training “eine bescheidene Form der Evolution” - Selektion für Modelle, die Internet-Text gut vorhersagen. Post-Training formt dann diese rohe Fähigkeit in etwas Nützliches und Sicheres.
Entwicklungen 2025
Reinforcement Pre-Training (RPT): Microsoft-Forscher haben Next-Token-Vorhersage als sequenzielles Entscheidungsproblem neu formuliert, was potenziell verbessert, wie Modelle während des Pre-Trainings lernen.
Datenknappheit: Hochwertige Textdaten werden knapp. Labs erforschen synthetische Daten, multimodale Daten und effizientere Trainingsmethoden.
Skalierungsgrenzen: Reine Skalierung des Pre-Trainings zeigt abnehmende Renditen, wodurch sich der Fokus auf Post-Training-Innovationen verschiebt.
Weiterführende Lektüre
- Scaling Laws - Die Beziehung zwischen Pre-Training-Rechenleistung und Leistung
- Andrej Karpathy - Nennt Pre-Training “bescheidene Evolution”
- John Schulman - Pionier in Post-Training-Techniken