Lukasz Kaiser

Lukasz Kaiser

Chercheur Scientifique at OpenAI

Co-auteur du papier Transformer et chercheur chez OpenAI qui a dirigé le développement des modèles de raisonnement O1—le seul des 'Huit Transformers' qui travaille encore dans un laboratoire.

openairesearchtransformersreasoning

À propos de Lukasz Kaiser

Lukasz Kaiser est un chercheur en apprentissage profond chez OpenAI et l’un des huit co-auteurs du papier historique de 2017 “Attention Is All You Need” qui a introduit l’architecture Transformer. Ce qui rend Kaiser unique parmi les “Huit Transformers” est son choix : alors que sept de ses co-auteurs sont partis fonder des startups d’IA (dont Cohere, Adept et Character.AI), Kaiser est resté ingénieur, rejoignant finalement OpenAI en 2021.

Chez OpenAI, Kaiser a été au centre des percées les plus importantes de l’entreprise. Il a été responsable du contexte long pour GPT-4 et a dirigé l’équipe de recherche qui a développé les modèles de raisonnement O1—ce qu’il appelle “un nouveau paradigme” fondamentalement différent de la pure mise à l’échelle des transformers. Son annonce sur X/Twitter lors du lancement d’O1 a capturé cette importance : “I’m so happy to see o1 launch! Leading this research with my colleagues for almost 3 years and working on related ideas even longer convinced me: it’s a new paradigm.”

Avant sa carrière en IA, Kaiser était chercheur titulaire à l’Université Paris Diderot, spécialisé en logique et théorie des automates. Il a obtenu son doctorat de l’Université RWTH Aachen et son MSc de l’Université de Wroclaw, en Pologne. Cette formation en méthodes formelles peut expliquer son focus sur le raisonnement et la vérification dans les systèmes d’IA.

Points forts de carrière

  • OpenAI (2021-présent) : Chercheur Scientifique, a dirigé le développement des modèles de raisonnement O1/O3, responsable du contexte long de GPT-4
  • Google Brain (2014-2021) : Chercheur Scientifique Principal, co-auteur du papier Transformer
  • Université Paris Diderot : Chercheur titulaire en logique et théorie des automates
  • Co-auteur : “Attention Is All You Need” (2017), système TensorFlow, bibliothèques Tensor2Tensor et Trax

Positions notables

Sur le paradigme de raisonnement

Kaiser fait une distinction nette entre deux paradigmes d’IA. Le paradigme original de mise à l’échelle des transformers—“prédire simplement le mot suivant et entraîner un modèle de plus en plus grand sur de plus en plus de données”—a plafonné en raison de contraintes de données. Mais le paradigme de raisonnement est fondamentalement différent :

“Reasoning models learn from another order of magnitude less data. This paradigm is so young that it’s only on this very steep path up… We’ve scaled it up a little bit but there could be way more.”

Sur le choix de rester ingénieur

Contrairement à ses co-auteurs Transformer qui sont devenus fondateurs, Kaiser a choisi de rester sur le terrain :

“Welcome the… authors of the paper that says attention is all you need. Ladies and gentlemen, the only person who is still an engineer—Lukasz.”

Ce choix l’a placé au centre du travail le plus important d’OpenAI, de GPT-4 aux modèles de raisonnement.

Sur la chronologie de l’AGI

Kaiser n’aime pas le terme “AGI” mais souligne la réalité pratique : l’IA peut maintenant travailler pendant des heures sur des tâches utiles, pas seulement répondre en quelques secondes. Pour les tâches informatiques—cliquer, écrire, programmer—l’automatisation “arrive rapidement”, tandis que la robotique du monde physique reste à ses débuts.

Citations clés

  • “There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it’s only on this very steep path up.” (sur les modèles de raisonnement)
  • “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (sur le progrès de l’IA)
  • “That’s the ultimate bottleneck—GPUs and energy.” (sur les contraintes)
  • “It’s a new paradigm. Models that train hidden CoTs are more powerful than raw Transformers, learn from less data, generalize better.” (sur le lancement d’O1)

Lectures connexes

  • AI Agents - Les systèmes autonomes que les modèles de raisonnement de Kaiser permettent
  • Supervision Threshold - Quand l’IA passe de l’assistance à l’autonomie

Video Mentions

Video thumbnail

Paradigme des modèles de raisonnement

Kaiser explique le paradigme de raisonnement : 'There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it's only on this very steep path up.'

Video thumbnail

Contraintes de calcul

Sur le goulot d'étranglement : 'That's the ultimate bottleneck—GPUs and energy. I think Sam is basically getting as much more as is possible.'

Video thumbnail

Chronologie de l'automatisation des tâches

Sur l'automatisation des tâches : 'I believe reasoning models even currently are probably capable of doing most of them... these tasks are coming fast.'

Related People