Ilya Sutskever über die Grenzen der Verallgemeinerung von KI-Modellen wie bei Menschen
Der ehemalige OpenAI Chief Scientist erläutert die fundamentale Lücke zwischen Eval-Performance und realer Fähigkeit, warum wir uns in einem neuen Zeitalter der Forschung befinden, und welche Möglichkeiten Wertefunktionen eröffnen.
Perspektive
Dies ist Ilya Sutskever von seiner nachdenklichsten Seite - im tiefgehenden Gespräch mit Dwarkesh Patel über das, was aktuellen KI-Systemen wirklich fehlt. Keine Produktankündigungen, kein Hype - nur zwei Menschen, die sich mit den kernwissenschaftlichen Fragen auseinandersetzen.
Die Eval-Realitäts-Diskrepanz ist das zentrale Rätsel. Modelle gewinnen Goldmedaillen bei der Internationalen Mathematik-Olympiade, können aber keine Fehlerbehebung zuverlässig durchführen, ohne den vorherigen Fehler wieder einzuführen. Ilyas Erklärung ist treffend: RL-Training ist zu eng optimiert. Teams schauen sich Evals an, bauen Umgebungen, die auf diese Evals ausgerichtet sind, und enden mit dem Äquivalent eines Studierenden, der 10.000 Stunden für Wettbewerbsprogrammierung trainiert hat - technisch brillant, aber ohne den "besonderen Faktor", der reale Fähigkeit ausmacht. "Die Modelle sind viel mehr wie der erste Student, aber noch extremer."
Die Pre-Training-Erkenntnis ist unterschätzt. Wenn Sie Pre-Training durchführen, müssen Sie keine Daten auswählen - Sie nehmen einfach alles. Aber RL-Training erfordert die Auswahl von Umgebungen, und diese Entscheidungen werden oft von Benchmarks rückwärts konstruiert. "Das echte Reward Hacking sind menschliche Forscher, die zu sehr auf Evals fixiert sind."
Wir sind zurück im Zeitalter der Forschung. Ilya beschreibt die KI-Geschichte als oszillierend zwischen Epochen: 2012-2020 war Forschung, 2020-2025 war Skalierung, und jetzt - mit so teurer Rechenleistung und endlichen Pre-Training-Daten - kehren wir zur Forschung zurück. "Ist es wirklich der Glaube, dass wenn man einfach alles um das 100-fache skaliert, alles transformiert wird? Ich glaube das nicht."
Wertefunktionen könnten der Schlüssel sein. Das Gespräch kehrt immer wieder zu der Frage zurück, wie Menschen lernen - Teenager fahren nach 10 Stunden Auto, Forscher übernehmen Denkstile von Mentoren. Ilya weist auf den Fall eines Schlaganfall-Patienten hin, der die emotionale Verarbeitung verlor und nicht mehr in der Lage war, Entscheidungen zu treffen. Emotionen könnten eine durch Evolution fest verdrahtete Wertefunktion sein. Das aktuelle RL hat nichts Vergleichbares - man bekommt kein Lernsignal, bis man eine Aufgabe abgeschlossen und bewertet hat.
Das Verallgemeinerungsproblem ist fundamental. Modelle verallgemeinern "dramatisch schlechter als Menschen" und es ist "super offensichtlich." Selbst in Bereichen ohne evolutionäre Vorannahmen (Mathematik, Programmierung) lernen Menschen schneller und robuster. Dies deutet auf etwas hin, das über mehr Daten oder Rechenleistung hinausgeht.
Wichtigste Erkenntnisse
- Eval-Performance ≠ reale Fähigkeit - Modelle sind wie Hyper-spezialisierte Wettbewerbsstudenten; ihnen fehlt das allgemeine Urteilsvermögen
- RL-Training schafft das Problem - Teams optimieren für Evals und produzieren enge statt allgemeine Fähigkeiten
- Wir sind zurück im Zeitalter der Forschung - Skalierung allein transformiert die Fähigkeit nicht; fundamentale Durchbrüche nötig
- Wertefunktionen sind untererforscht - Könnten das "Warten auf Aufgabenvollendung"-Problem im RL verkürzen
- Menschliche Emotionen könnten fest verdrahtete Wertefunktionen sein - Die Evolution gab uns robuste Entscheidungssignale, die Modelle fehlen
- Verallgemeinerungslücke ist fundamental - Menschen lernen schneller und robuster, auch in nicht-evolutionären Bereichen
- Pre-Training-Daten sind endlich - Die "einfach mehr skalieren"-Ära endet; neue Rezepte erforderlich
Big Picture
Die Skalierungs-Ära, die KI von 2020-2025 definierte, könnte zu Ende gehen. Der nächste Durchbruch wird nicht von größeren Modellen kommen - er wird aus der Lösung des Verallgemeinerungsproblems entstehen, das aktuelle KI wie einen brillanten, aber unzuverlässigen Praktikanten wirken lässt, anstatt wie einen vertrauten Kollegen.


