Skalierungsgesetze
SKAY-ling lawz
Definition
Skalierungsgesetze beschreiben die empirische Beziehung zwischen Modellleistung und drei Schlüsselvariablen: Modellgröße (Parameter), Datensatzgröße und Rechenbudget. Die berühmte Erkenntnis: Die Leistung verbessert sich vorhersagbar, wenn Sie diese Faktoren skalieren.
Die Skalierungsära (2020-2025)
Von GPT-3 bis GPT-4 war die dominierende Strategie einfach: alles größer machen.
- Mehr Parameter
- Mehr Trainingsdaten
- Mehr Rechenleistung
Das funktionierte bemerkenswert gut und führte zu dramatischen Fähigkeitsverbesserungen mit jeder Generation.
Anzeichen abnehmender Renditen
Schlüsselfiguren stellen nun in Frage, ob Skalierung allein weitergehen kann:
“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” — Ilya Sutskever
“Ist der Glaube wirklich, dass wenn man einfach die Skalierung um das 100-fache erhöht, alles transformiert würde? Ich glaube nicht, dass das wahr ist.” — Ilya Sutskever
“There’s a lot of room between exponential and asymptotic.” — Demis Hassabis
“Es gibt viel Raum zwischen exponentiell und asymptotisch.” — Demis Hassabis
Die neue Formel
Demis Hassabis beschreibt DeepMinds Ansatz:
“We operate on 50% scaling, 50% innovation. Both are required for AGI.”
“Wir arbeiten zu 50% mit Skalierung, zu 50% mit Innovation. Beides ist für AGI erforderlich.”
Was sich ändert
- Pre-Training-Daten sind endlich - uns gehen hochwertige Texte aus
- Renditen sind nicht exponentiell - Verbesserungen sind inkrementell, nicht revolutionär
- Forschung zählt wieder - Durchbrüche erfordern Innovation, nicht nur Ressourcen
Die Ären der KI
Ilya Sutskever’s Rahmen:
- 2012-2020: Forschungsära (Deep-Learning-Durchbrüche)
- 2020-2025: Skalierungsära (größer ist besser)
- 2025+: Rückkehr zur Forschung (neue Paradigmen erforderlich)
Verwandte Begriffe
- Pre-training - Die Phase, in der Skalierung am meisten zählt
- Chinchilla - Das Paper, das Skalierungsverhältnisse optimierte