Transformer-Miterfinder: 'Reasoning-Modelle stehen erst am Anfang—erwarte starke Verbesserungen in 1-2 Jahren'

Jon Hernandez AI
future-of-workagentsenterpriseresearchinterview

Perspektive

Lukasz Kaiser nimmt eine einzigartige Position in der KI-Geschichte ein: Er war Mitautor des bahnbrechenden Papers “Attention Is All You Need” von 2017, das Transformer einführte, und er ist der einzige der acht Autoren, der sich entschied, Ingenieur zu bleiben, anstatt ein Startup zu gründen. Jetzt bei OpenAI leitete er die Forschung, die die O1-Reasoning-Modelle hervorbrachte—was er als “neues Paradigma” bezeichnet, das sich grundlegend vom Skalieren von Transformern unterscheidet. Dieses Interview bietet einen seltenen Insider-Blick darauf, wohin sich KI tatsächlich entwickelt.

Über das Reasoning-Paradigma: “There was this transformer paradigm when we were scaling up transformers… But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it’s only on this very steep path up.” (Es gab dieses Transformer-Paradigma, als wir Transformer hochskalierten… Aber es gibt das neue Paradigma, nämlich Reasoning, und das steht erst am Anfang. Ich habe das Gefühl, dass dieses Paradigma so jung ist, dass es sich nur auf diesem sehr steilen Pfad nach oben befindet.) Kaiser unterscheidet zwischen abnehmenden Erträgen beim reinen Transformer-Skalieren und dem ungenutzten Potenzial von Reasoning-Modellen, die seiner Aussage nach “aus einer Größenordnung weniger Daten lernen.”

Über keinen kommenden KI-Winter: “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (Ich glaube nicht, dass in diesem Sinne ein Winter kommt. Wenn überhaupt, könnte es im nächsten Jahr oder zwei tatsächlich eine sehr starke Verbesserung geben—was fast ein bisschen beängstigend ist.) Während einige über das Erreichen von Skalierungsgrenzen spekulieren, sieht Kaiser das Reasoning-Paradigma als neuen steilen Anstieg mit viel Spielraum.

Über den ultimativen Engpass: “That’s the ultimate bottleneck. Like it’s GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry.” (Das ist der ultimative Engpass. Es sind GPUs und Energie. Ich denke, Sam bekommt im Grunde so viel mehr wie möglich. Und manche Leute sorgen sich, ob wir sie nutzen können werden. Ich mache mir keine Sorgen.) Die Einschränkung ist nicht die Forschungsfähigkeit oder Ideen—es ist rohe Rechenleistung. Jede GPU, die sie bekommen können, wird produktiv eingesetzt werden.

Über Aufgaben vs. Jobs: “I believe reasoning models even currently are probably capable of doing most of them… these tasks are coming fast.” (Ich glaube, Reasoning-Modelle sind wahrscheinlich sogar aktuell in der Lage, die meisten davon zu erledigen… diese Aufgaben kommen schnell.) Kaiser verdeutlicht die Unterscheidung: KI wird nicht sofort ganze Jobs ersetzen, aber computerbasierte Aufgaben—Klicken, Schreiben, Programmieren—werden jetzt automatisiert. “Innerhalb von Monaten” ging Code-KI von ausreichend zu wirklich hilfreich.

Über die Jugend des neuen Paradigmas: “We’ve scaled it up a little bit but there could be way more scaling it up. There’s way more research methods to make it better.” (Wir haben es ein wenig hochskaliert, aber es könnte noch viel mehr hochskaliert werden. Es gibt noch viel mehr Forschungsmethoden, um es besser zu machen.) Im Gegensatz zum Transformer-Skalieren, das aufgrund von Datenbeschränkungen ein Plateau erreicht hat, hat das Reasoning-Paradigma kaum begonnen. Die Kombination aus größeren Basismodellen plus Reasoning könnte kumulative Verbesserungen bringen.

Wichtigste Erkenntnisse

  • Zwei Paradigmen, unterschiedliche Entwicklungen - Reines Transformer-Skalieren ist durch Daten begrenzt; Reasoning-Modelle befinden sich auf einem steilen Aufwärtspfad mit Wachstumsspielraum
  • Computer-Aufgaben zuerst, physische Welt später - Erwarte schnelle Automatisierung bildschirmbasierter Arbeit; Robotik und physische Aufgaben werden länger dauern
  • Coding ist der Kanarienvogel - KI-Coding-Fähigkeiten gingen in nur drei Monaten von “okay” zu “echter Hilfe”; “die Hälfte der Zeit bitten die Leute einfach Codex, zuerst für sie zu coden”
  • Keine AGI—aber spielt das eine Rolle? - Kaiser mag den Begriff AGI nicht; wichtiger ist, dass KI jetzt “stundenlang arbeiten und etwas Nützliches tun kann”
  • Destillation vs. Skalierungs-Kompromiss - OpenAI balanciert das Training der größtmöglichen Modelle damit, sie günstig genug zu machen, um 800M+ Nutzer zu bedienen
  • 1-2 Jahre Horizont für starke Verbesserung - Reasoning-Paradigma plus neue Recheninfrastruktur könnte bald dramatische Fähigkeitssprünge erzeugen

Das große Ganze

Kaisers Rahmung löst den scheinbaren Widerspruch zwischen “KI-Fortschritt verlangsamt sich” und “KI-Fortschritt beschleunigt sich”—sie sprechen über verschiedene Paradigmen. Reines Transformer-Skalieren ist ausgereift; Reasoning-Modelle stehen erst am Anfang. Für Organisationen, die KI-Adoption planen, deutet dies darauf hin, dass die in 12-24 Monaten verfügbaren Fähigkeiten dramatisch besser sein könnten als heute, insbesondere für Aufgaben, die von erweiterter “Denkzeit” profitieren. Die Ära der KI, die stundenlang arbeiten kann, nicht nur Sekunden, kommt schneller als die meisten erwarten.