Pre-Training

/priː ˈtreɪnɪŋ/

Also known as: pretraining, foundation model training, base model training

technical intermediate

Was ist Pre-Training?

Pre-Training ist die erste Phase beim Training eines großen Sprachmodells, bei der das Modell allgemeines Sprachverständnis aus massiven Mengen an Text lernt. Denken Sie daran, als würde man Milliarden von Büchern, Artikeln und Websites lesen, um Grammatik, Fakten und Muster in der Sprache zu lernen.

Während des Pre-Trainings verarbeitet das Modell Milliarden von Wörtern und sagt wiederholt das nächste Token in einer Sequenz vorher. Dieser selbstüberwachte Ansatz - das Lernen aus der Struktur der Daten selbst statt aus menschlichen Labels - ist es, was LLMs ermöglicht, breite Fähigkeiten zu entwickeln.

Die Pre-Training-Pipeline

1. Datensammlung Sammeln vielfältiger Texte aus Büchern, Artikeln, Websites, Code-Repositories und anderen Quellen. Hugging Faces FineWeb-Dataset enthält beispielsweise 15 Billionen Token (44TB) aus 96 CommonCrawl-Snapshots.

2. Datenbereinigung Entfernen von Duplikaten, nicht-textuellen Elementen, Formatierungsproblemen und Inhalten niedriger Qualität. Datenqualität beeinflusst die Modellqualität dramatisch.

3. Tokenisierung Konvertieren von Text in numerische Token, die das Modell verarbeiten kann. Text wird in Subwörter oder Zeichen aufgeteilt und eindeutigen Nummern zugeordnet.

4. Training Die Kernaufgabe: das nächste Token in einer Sequenz vorhersagen. Das Modell sieht “Die Katze saß auf der” und lernt, “Matte” (oder ähnliches) vorherzusagen. Milliardenfach wiederholt, baut dies tiefes Sprachverständnis auf.

Erforderliche Ressourcen

Pre-Training ist außerordentlich ressourcenintensiv:

  • Zeit: Wochen bis Monate kontinuierliches Training
  • Rechenleistung: Tausende von GPUs, die parallel laufen
  • Daten: Billionen von Token
  • Kosten: Millionen von Dollar für Frontier-Modelle

Deshalb fine-tunen die meisten Organisationen bestehende Modelle, anstatt von Grund auf zu pre-trainen.

Pre-Training vs. Fine-Tuning

AspektPre-TrainingFine-Tuning
ZielAllgemeines SprachverständnisSpezifische Aufgabe oder Verhalten
DatenBillionen von Token, vielfältigTausende bis Millionen, gezielt
ZeitWochen bis MonateStunden bis Tage
KostenMillionen von DollarHunderte bis Tausende
Wer macht esFoundation-Model-LabsJeder mit einem Use Case

Das Zwei-Phasen-Paradigma

Moderne LLM-Entwicklung wird in zwei Phasen beschrieben:

  1. Pre-Training: Baut allgemeine Sprachfähigkeiten auf
  2. Post-Training: Verfeinert und richtet diese Fähigkeiten aus (beinhaltet Fine-Tuning, RLHF, DPO)

Wie Andrej Karpathy es beschreibt, ist Pre-Training “eine bescheidene Form der Evolution” - Selektion für Modelle, die Internet-Text gut vorhersagen. Post-Training formt dann diese rohe Fähigkeit in etwas Nützliches und Sicheres.

Entwicklungen 2025

Reinforcement Pre-Training (RPT): Microsoft-Forscher haben Next-Token-Vorhersage als sequenzielles Entscheidungsproblem neu formuliert, was potenziell verbessert, wie Modelle während des Pre-Trainings lernen.

Datenknappheit: Hochwertige Textdaten werden knapp. Labs erforschen synthetische Daten, multimodale Daten und effizientere Trainingsmethoden.

Skalierungsgrenzen: Reine Skalierung des Pre-Trainings zeigt abnehmende Renditen, wodurch sich der Fokus auf Post-Training-Innovationen verschiebt.

Weiterführende Lektüre

Mentioned In

Video thumbnail

John Schulman

Pre-training is like a crappy form of evolution - you're selecting for models that predict internet text well.