Skalierungsgesetze

SKAY-ling lawz

research intermediate

Definition

Skalierungsgesetze beschreiben die empirische Beziehung zwischen Modellleistung und drei Schlüsselvariablen: Modellgröße (Parameter), Datensatzgröße und Rechenbudget. Die berühmte Erkenntnis: Die Leistung verbessert sich vorhersagbar, wenn Sie diese Faktoren skalieren.

Die Skalierungsära (2020-2025)

Von GPT-3 bis GPT-4 war die dominierende Strategie einfach: alles größer machen.

  • Mehr Parameter
  • Mehr Trainingsdaten
  • Mehr Rechenleistung

Das funktionierte bemerkenswert gut und führte zu dramatischen Fähigkeitsverbesserungen mit jeder Generation.

Anzeichen abnehmender Renditen

Schlüsselfiguren stellen nun in Frage, ob Skalierung allein weitergehen kann:

“Is the belief really that if you just 100x the scale everything would be transformed? I don’t think that’s true.” — Ilya Sutskever

“Ist der Glaube wirklich, dass wenn man einfach die Skalierung um das 100-fache erhöht, alles transformiert würde? Ich glaube nicht, dass das wahr ist.” — Ilya Sutskever

“There’s a lot of room between exponential and asymptotic.” — Demis Hassabis

“Es gibt viel Raum zwischen exponentiell und asymptotisch.” — Demis Hassabis

Die neue Formel

Demis Hassabis beschreibt DeepMinds Ansatz:

“We operate on 50% scaling, 50% innovation. Both are required for AGI.”

“Wir arbeiten zu 50% mit Skalierung, zu 50% mit Innovation. Beides ist für AGI erforderlich.”

Was sich ändert

  1. Pre-Training-Daten sind endlich - uns gehen hochwertige Texte aus
  2. Renditen sind nicht exponentiell - Verbesserungen sind inkrementell, nicht revolutionär
  3. Forschung zählt wieder - Durchbrüche erfordern Innovation, nicht nur Ressourcen

Die Ären der KI

Ilya Sutskever’s Rahmen:

  • 2012-2020: Forschungsära (Deep-Learning-Durchbrüche)
  • 2020-2025: Skalierungsära (größer ist besser)
  • 2025+: Rückkehr zur Forschung (neue Paradigmen erforderlich)

Verwandte Begriffe

  • Pre-training - Die Phase, in der Skalierung am meisten zählt
  • Chinchilla - Das Paper, das Skalierungsverhältnisse optimierte

Mentioned In

Video thumbnail

Ilya Sutskever

Is the belief really that if you just 100x the scale everything would be transformed? I don't think that's true.

Video thumbnail

Demis Hassabis

There's a lot of room between exponential and asymptotic. We operate on 50% scaling, 50% innovation.