Lukasz Kaiser

Lukasz Kaiser

Research Scientist at OpenAI

Mitautor des Transformer-Papers und OpenAI-Forscher, der die Entwicklung der O1-Reasoning-Modelle leitete—der einzige der 'Transformer Eight', der noch als Ingenieur in einem Labor arbeitet.

openairesearchtransformersreasoning

Über Lukasz Kaiser

Lukasz Kaiser ist ein Deep-Learning-Forscher bei OpenAI und einer der acht Mitautoren des bahnbrechenden Papers “Attention Is All You Need” von 2017, das die Transformer-Architektur einführte. Was Kaiser unter den “Transformer Eight” einzigartig macht, ist seine Entscheidung: Während sieben seiner Mitautoren weggingen, um KI-Startups zu gründen (darunter Cohere, Adept und Character.AI), blieb Kaiser Ingenieur und trat schließlich 2021 OpenAI bei.

Bei OpenAI stand Kaiser im Zentrum der wichtigsten Durchbrüche des Unternehmens. Er diente als Long-Context-Lead für GPT-4 und leitete das Forschungsteam, das die O1-Reasoning-Modelle entwickelte—was er als “neues Paradigma” bezeichnet, das sich grundlegend vom reinen Transformer-Skalieren unterscheidet. Seine X/Twitter-Ankündigung beim Launch von O1 erfasste diese Bedeutung: “I’m so happy to see o1 launch! Leading this research with my colleagues for almost 3 years and working on related ideas even longer convinced me: it’s a new paradigm.”

Vor seiner KI-Karriere war Kaiser ein fest angestellter Forscher an der Universität Paris Diderot, spezialisiert auf Logik und Automatentheorie. Er erhielt seinen PhD von der RWTH Aachen und seinen MSc von der Universität Breslau, Polen. Dieser Hintergrund in formalen Methoden könnte seinen Fokus auf Reasoning und Verifikation in KI-Systemen erklären.

Karriere-Highlights

  • OpenAI (2021-heute): Research Scientist, leitete die Entwicklung der O1/O3-Reasoning-Modelle, GPT-4 Long-Context-Lead
  • Google Brain (2014-2021): Staff Research Scientist, Mitautor des Transformer-Papers
  • Universität Paris Diderot: Fest angestellter Forscher in Logik und Automatentheorie
  • Mitautor: “Attention Is All You Need” (2017), TensorFlow-System, Tensor2Tensor- und Trax-Bibliotheken

Bemerkenswerte Positionen

Über das Reasoning-Paradigma

Kaiser zieht eine scharfe Unterscheidung zwischen zwei KI-Paradigmen. Das ursprüngliche Transformer-Skalierungs-Paradigma—“einfach das nächste Wort vorhersagen und ein immer größeres Modell mit immer mehr Daten trainieren”—hat aufgrund von Datenbeschränkungen ein Plateau erreicht. Aber das Reasoning-Paradigma ist grundlegend anders:

“Reasoning models learn from another order of magnitude less data. This paradigm is so young that it’s only on this very steep path up… We’ve scaled it up a little bit but there could be way more.” (Reasoning-Modelle lernen aus einer weiteren Größenordnung weniger Daten. Dieses Paradigma ist so jung, dass es sich nur auf diesem sehr steilen Pfad nach oben befindet… Wir haben es ein wenig hochskaliert, aber es könnte noch viel mehr sein.)

Über das Bleiben als Ingenieur

Im Gegensatz zu seinen Transformer-Mitautoren, die Gründer wurden, entschied sich Kaiser, praktisch zu bleiben:

“Welcome the… authors of the paper that says attention is all you need. Ladies and gentlemen, the only person who is still an engineer—Lukasz.” (Willkommen die… Autoren des Papers, das sagt Attention is all you need. Meine Damen und Herren, die einzige Person, die noch Ingenieur ist—Lukasz.)

Diese Entscheidung hat ihn ins Zentrum der folgenreichsten Arbeit von OpenAI gebracht, von GPT-4 bis zu Reasoning-Modellen.

Über den AGI-Zeitplan

Kaiser mag den Begriff “AGI” nicht, betont aber die praktische Realität: KI kann jetzt stundenlang an nützlichen Aufgaben arbeiten, nicht nur in Sekunden antworten. Für computerbasierte Aufgaben—Klicken, Schreiben, Programmieren—kommt die Automatisierung “schnell”, während Robotik in der physischen Welt noch in den Kinderschuhen steckt.

Wichtige Zitate

  • “There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it’s only on this very steep path up.” (über Reasoning-Modelle)
  • “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (über KI-Fortschritt)
  • “That’s the ultimate bottleneck—GPUs and energy.” (über Einschränkungen)
  • “It’s a new paradigm. Models that train hidden CoTs are more powerful than raw Transformers, learn from less data, generalize better.” (über O1-Launch)

Weiterführende Lektüre

  • AI Agents - Die autonomen Systeme, die Kaisers Reasoning-Modelle ermöglichen
  • Supervision Threshold - Wenn KI von Unterstützung zu Autonomie wechselt

Video Mentions

Video thumbnail

Reasoning models paradigm

Kaiser explains the reasoning paradigm: 'There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it's only on this very steep path up.'

Video thumbnail

Compute constraints

On the bottleneck: 'That's the ultimate bottleneck—GPUs and energy. I think Sam is basically getting as much more as is possible.'

Video thumbnail

Task automation timeline

On task automation: 'I believe reasoning models even currently are probably capable of doing most of them... these tasks are coming fast.'

Related People