Lukasz Kaiser

Lukasz Kaiser

Research Scientist at OpenAI

Coautor del paper Transformer e investigador de OpenAI que lideró el desarrollo de los modelos de razonamiento O1—el único de los 'Ocho del Transformer' que sigue siendo ingeniero en un laboratorio.

openairesearchtransformersreasoning

Acerca de Lukasz Kaiser

Lukasz Kaiser es un investigador de aprendizaje profundo en OpenAI y uno de los ocho coautores del paper histórico de 2017 “Attention Is All You Need” que introdujo la arquitectura Transformer. Lo que hace único a Kaiser entre los “Ocho del Transformer” es su elección: mientras siete de sus coautores se fueron para fundar startups de IA (incluyendo Cohere, Adept y Character.AI), Kaiser siguió siendo ingeniero, eventualmente uniéndose a OpenAI en 2021.

En OpenAI, Kaiser ha estado en el centro de los avances más importantes de la compañía. Sirvió como líder de contexto largo para GPT-4 y lideró el equipo de investigación que desarrolló los modelos de razonamiento O1—lo que él llama “un nuevo paradigma” fundamentalmente diferente del escalamiento puro de transformers. Su anuncio en X/Twitter cuando O1 se lanzó capturó esta importancia: “I’m so happy to see o1 launch! Leading this research with my colleagues for almost 3 years and working on related ideas even longer convinced me: it’s a new paradigm.”

Antes de su carrera en IA, Kaiser fue investigador titular en la Universidad Paris Diderot especializándose en lógica y teoría de autómatas. Recibió su doctorado de la Universidad RWTH Aachen y su maestría de la Universidad de Wroclaw, Polonia. Este trasfondo en métodos formales puede explicar su enfoque en razonamiento y verificación en sistemas de IA.

Logros de Carrera

  • OpenAI (2021-presente): Research Scientist, lideró el desarrollo de modelos de razonamiento O1/O3, líder de contexto largo de GPT-4
  • Google Brain (2014-2021): Staff Research Scientist, coautor del paper Transformer
  • Universidad Paris Diderot: Investigador titular en lógica y teoría de autómatas
  • Coautor de: “Attention Is All You Need” (2017), sistema TensorFlow, librerías Tensor2Tensor y Trax

Posiciones Notables

Sobre el Paradigma de Razonamiento

Kaiser hace una distinción clara entre dos paradigmas de IA. El paradigma original de escalamiento de transformers—“solo predecir la siguiente palabra y entrenar un modelo cada vez más grande con más y más datos”—se ha estancado debido a restricciones de datos. Pero el paradigma de razonamiento es fundamentalmente diferente:

“Los modelos de razonamiento aprenden de otro orden de magnitud menos datos. Este paradigma es tan joven que está solo en este camino muy empinado hacia arriba… Lo hemos escalado un poco pero podría haber mucho más.”

Sobre Seguir Siendo Ingeniero

A diferencia de sus coautores del Transformer que se convirtieron en fundadores, Kaiser eligió permanecer trabajando directamente:

“Bienvenidos los… autores del paper que dice que la atención es todo lo que necesitas. Damas y caballeros, la única persona que sigue siendo ingeniero—Lukasz.”

Esta elección lo ha puesto en el centro del trabajo más consecuente de OpenAI, desde GPT-4 hasta los modelos de razonamiento.

Sobre la Línea de Tiempo de AGI

A Kaiser no le gusta el término “AGI” pero enfatiza la realidad práctica: la IA ahora puede trabajar por horas en tareas útiles, no solo responder en segundos. Para tareas basadas en computadora—hacer clic, escribir, programar—la automatización está “llegando rápido,” mientras que la robótica del mundo físico permanece en su infancia.

Citas Clave

  • “Está el nuevo paradigma que es el razonamiento y ese apenas está comenzando. Este paradigma es tan joven que está solo en este camino muy empinado hacia arriba.” (sobre modelos de razonamiento)
  • “No creo que venga ningún invierno en este sentido. Si acaso, puede que realmente haya una mejora muy drástica en el próximo año o dos—lo cual es algo que casi da un poco de miedo.” (sobre el progreso de IA)
  • “Ese es el cuello de botella definitivo—GPUs y energía.” (sobre restricciones)
  • “Es un nuevo paradigma. Los modelos que entrenan CoTs ocultos son más poderosos que los Transformers puros, aprenden de menos datos, generalizan mejor.” (sobre el lanzamiento de O1)

Lectura Relacionada

  • AI Agents - Los sistemas autónomos que los modelos de razonamiento de Kaiser habilitan
  • Supervision Threshold - Cuando la IA cruza de asistencia a autonomía

Video Mentions

Video thumbnail

Reasoning models paradigm

Kaiser explains the reasoning paradigm: 'There is the new paradigm which is reasoning and that one is only starting. This paradigm is so young that it's only on this very steep path up.'

Video thumbnail

Compute constraints

On the bottleneck: 'That's the ultimate bottleneck—GPUs and energy. I think Sam is basically getting as much more as is possible.'

Video thumbnail

Task automation timeline

On task automation: 'I believe reasoning models even currently are probably capable of doing most of them... these tasks are coming fast.'

Related People