Andrej Karpathy: Die schnelle Einführung in LLMs (Der virale 30-Minuten-Erklärer)
Perspektive
Dies ist die definitive Einführung in Large Language Models - Karpathy nahm seinen viralen 30-Minuten-Vortrag für YouTube neu auf, nachdem das Original nicht aufgezeichnet wurde. Wenn Sie diesen Vortrag verstehen, verstehen Sie die Grundlagen.
“Ein Large Language Model besteht aus nur zwei Dateien.” Die Parameter-Datei (140GB für Llama 2 70B - 70 Milliarden Parameter × 2 Bytes jeweils als float16) und eine Run-Datei (~500 Zeilen C ohne Abhängigkeiten). Nehmen Sie diese zwei Dateien, kompilieren Sie, und Sie können offline auf einem MacBook mit dem Modell sprechen. Das ist das gesamte Paket.
Training ist Kompression. Nehmen Sie 10TB Internet-Text, 6.000 GPUs für 12 Tage (~$2M), und komprimieren Sie es in 140GB Parameter. Das ist ungefähr 100-fache Kompression - aber es ist verlustbehaftete Kompression. Das Modell hat eine “Gestalt” der Trainingsdaten, keine identische Kopie. “Das ist so ähnlich wie eine Zip-Datei des Internets.”
Der Reversal Curse zeigt, wie seltsam dieses Wissen ist. GPT-4 weiß, dass Tom Cruises Mutter Mary Lee Pfeiffer ist. Aber fragen Sie “Wer ist Mary Lee Pfeiffers Sohn?” und es weiß es nicht. “Dieses Wissen ist seltsam und irgendwie eindimensional. Man muss aus einer bestimmten Richtung fragen.”
“LLMs sind größtenteils undurchschaubare Artefakte.” Wir kennen die exakte Architektur, jede mathematische Operation. Aber wir wissen nicht, was die 100 Milliarden Parameter tun. “Wir können messen, dass es bei der Vorhersage des nächsten Wortes besser wird, aber wir wissen nicht, wie diese Parameter zusammenarbeiten, um das zu erreichen.” Anders als bei einem Auto, wo wir alle Teile verstehen.
Pre-training vs. Fine-tuning. Pre-training: massive Menge, niedrigere Qualität an Internet-Daten, baut Wissen auf. Fine-tuning: kleinere Menge (~100K Beispiele), sehr hohe Qualität an Frage-Antwort-Paaren, verleiht dem Modell sein Assistenten-”Format”. Pre-training ist teuer (Monate, Millionen von Dollar, einmal pro Jahr). Fine-tuning ist günstig (tägliche Iterationen möglich).
RLHF nutzt Vergleiche, weil Vergleichen einfacher ist als Generieren. Ein Haiku zu schreiben ist schwer. Das beste Haiku aus mehreren Optionen auszuwählen ist einfacher. Stage 3 Fine-tuning nutzt dies mit Reinforcement Learning from Human Feedback aus.
Skalierungsgesetze sind die Schlüsselerkenntnis. Die Leistung ist eine “bemerkenswert glatte, wohlverhaltene, vorhersagbare Funktion von nur zwei Variablen: N (Parameter) und D (Trainingsdaten).” Keine Anzeichen einer Obergrenze. “Algorithmischer Fortschritt ist nicht notwendig - wir können kostenlos leistungsfähigere Modelle erhalten, indem wir größere Modelle länger trainieren.”
Wichtigste Erkenntnisse
- Zwei Dateien - Parameter (140GB für 70B-Modell) + run.c (~500 Zeilen)
- 100-fache verlustbehaftete Kompression - 10TB Internet → 140GB Parameter
- Next Word Prediction - Grundlegende Aufgabe; erzwingt das Lernen über die Welt
- Reversal Curse - Wissen ist eindimensional; Richtung ist wichtig
- “Größtenteils undurchschaubar” - Wir kennen die Architektur, aber nicht was die Parameter tun
- Pre-training = Wissen - Teuer, Monate, Internet-skalierte Daten
- Fine-tuning = Alignment - Günstig, täglich möglich, 100K Qualitätsbeispiele
- RLHF - Vergleichen ist einfacher als Generieren; Stage 3 Optimierung
- Skalierungsgesetze - Leistung vorhersagbar durch Parameter × Daten; kein Plateau
- Open vs. Closed - Closed (GPT-4, Claude) funktionieren besser; Open (Llama) aufholbar
- “Hallucination” - Modell weiß nicht, was es auswendig gelernt vs. generiert hat
Gesamtbild
Ein LLM ist eine 100-fach komprimierte Version menschlichen Wissens, die auf einen Laptop passt. Wir haben es gebaut, wir können es ausführen, aber wir verstehen nicht wirklich, wie 100 Milliarden Parameter zusammenarbeiten, um Intelligenz zu erzeugen. Wir befinden uns in der seltsamen Lage, etwas Mächtiges geschaffen zu haben, bevor wir es vollständig verstehen.