
Lukasz Kaiser
Research Scientist at OpenAI
Mitautor des Transformer-Papers und OpenAI-Forscher, der die Entwicklung der O1-Reasoning-Modelle leitete—der einzige der 'Transformer Eight', der noch als Ingenieur in einem Labor arbeitet.
Über Lukasz Kaiser
Lukasz Kaiser ist ein Deep-Learning-Forscher bei OpenAI und einer der acht Mitautoren des bahnbrechenden Papers “Attention Is All You Need” von 2017, das die Transformer-Architektur einführte. Was Kaiser unter den “Transformer Eight” einzigartig macht, ist seine Entscheidung: Während sieben seiner Mitautoren weggingen, um KI-Startups zu gründen (darunter Cohere, Adept und Character.AI), blieb Kaiser Ingenieur und trat schließlich 2021 OpenAI bei.
Bei OpenAI stand Kaiser im Zentrum der wichtigsten Durchbrüche des Unternehmens. Er diente als Long-Context-Lead für GPT-4 und leitete das Forschungsteam, das die O1-Reasoning-Modelle entwickelte—was er als “neues Paradigma” bezeichnet, das sich grundlegend vom reinen Transformer-Skalieren unterscheidet. Seine X/Twitter-Ankündigung beim Launch von O1 erfasste diese Bedeutung: “I’m so happy to see o1 launch! Leading this research with my colleagues for almost 3 years and working on related ideas even longer convinced me: it’s a new paradigm.”
Vor seiner KI-Karriere war Kaiser ein fest angestellter Forscher an der Universität Paris Diderot, spezialisiert auf Logik und Automatentheorie. Er erhielt seinen PhD von der RWTH Aachen und seinen MSc von der Universität Breslau, Polen. Dieser Hintergrund in formalen Methoden könnte seinen Fokus auf Reasoning und Verifikation in KI-Systemen erklären.
Karriere-Highlights
- OpenAI (2021-heute): Research Scientist, leitete die Entwicklung der O1/O3-Reasoning-Modelle, GPT-4 Long-Context-Lead
- Google Brain (2014-2021): Staff Research Scientist, Mitautor des Transformer-Papers
- Universität Paris Diderot: Fest angestellter Forscher in Logik und Automatentheorie
- Mitautor: “Attention Is All You Need” (2017), TensorFlow-System, Tensor2Tensor- und Trax-Bibliotheken
Bemerkenswerte Positionen
Über das Reasoning-Paradigma
Kaiser zieht eine scharfe Unterscheidung zwischen zwei KI-Paradigmen. Das ursprüngliche Transformer-Skalierungs-Paradigma—“einfach das nächste Wort vorhersagen und ein immer größeres Modell mit immer mehr Daten trainieren”—hat aufgrund von Datenbeschränkungen ein Plateau erreicht. Aber das Reasoning-Paradigma ist grundlegend anders:
“Reasoning models learn from another order of magnitude less data. This paradigm is so young that it’s only on this very steep path up… We’ve scaled it up a little bit but there could be way more.” (Reasoning-Modelle lernen aus einer weiteren Größenordnung weniger Daten. Dieses Paradigma ist so jung, dass es sich nur auf diesem sehr steilen Pfad nach oben befindet… Wir haben es ein wenig hochskaliert, aber es könnte noch viel mehr sein.)
Über das Bleiben als Ingenieur
Im Gegensatz zu seinen Transformer-Mitautoren, die Gründer wurden, entschied sich Kaiser, praktisch zu bleiben:
“Welcome the… authors of the paper that says attention is all you need. Ladies and gentlemen, the only person who is still an engineer—Lukasz.” (Willkommen die… Autoren des Papers, das sagt Attention is all you need. Meine Damen und Herren, die einzige Person, die noch Ingenieur ist—Lukasz.)
Diese Entscheidung hat ihn ins Zentrum der folgenreichsten Arbeit von OpenAI gebracht, von GPT-4 bis zu Reasoning-Modellen.
Über den AGI-Zeitplan
Kaiser mag den Begriff “AGI” nicht, betont aber die praktische Realität: KI kann jetzt stundenlang an nützlichen Aufgaben arbeiten, nicht nur in Sekunden antworten. Für computerbasierte Aufgaben—Klicken, Schreiben, Programmieren—kommt die Automatisierung “schnell”, während Robotik in der physischen Welt noch in den Kinderschuhen steckt.
Wichtige Zitate
- “There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it’s only on this very steep path up.” (über Reasoning-Modelle)
- “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (über KI-Fortschritt)
- “That’s the ultimate bottleneck—GPUs and energy.” (über Einschränkungen)
- “It’s a new paradigm. Models that train hidden CoTs are more powerful than raw Transformers, learn from less data, generalize better.” (über O1-Launch)
Weiterführende Lektüre
- AI Agents - Die autonomen Systeme, die Kaisers Reasoning-Modelle ermöglichen
- Supervision Threshold - Wenn KI von Unterstützung zu Autonomie wechselt