Co-Inventor del Transformer: 'Los Modelos de Razonamiento Apenas Comienzan—Espera Mejoras Drásticas en 1-2 Años'

Jon Hernandez AI
future-of-workagentsenterpriseresearchinterview

Perspectiva

Lukasz Kaiser ocupa una posición única en la historia de la IA: coescribió el paper de 2017 “Attention Is All You Need” que introdujo los Transformers, y es el único de los ocho autores que eligió seguir siendo ingeniero en lugar de fundar una startup. Ahora en OpenAI, lideró la investigación que produjo los modelos de razonamiento O1—lo que él llama “un nuevo paradigma” fundamentalmente diferente de escalar transformers. Esta entrevista ofrece una visión privilegiada desde dentro de hacia dónde se dirige realmente la IA.

Sobre el paradigma de razonamiento: “There was this transformer paradigm when we were scaling up transformers… But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it’s only on this very steep path up.” (Hubo este paradigma de transformers cuando estábamos escalando transformers… Pero está el nuevo paradigma que es el razonamiento y ese apenas está comenzando. Siento que este paradigma es tan joven que está solo en este camino muy empinado hacia arriba.) Kaiser distingue entre rendimientos decrecientes en el escalamiento puro de transformers y el potencial sin explotar de los modelos de razonamiento, que según él “aprenden de un orden de magnitud menos datos.”

Sobre que no viene un invierno de IA: “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (No creo que venga ningún invierno en este sentido. Si acaso, puede que realmente haya una mejora muy drástica en el próximo año o dos—lo cual es algo que casi da un poco de miedo.) Mientras algunos especulan sobre alcanzar muros de escalamiento, Kaiser ve el paradigma de razonamiento como una nueva subida empinada con mucho margen de crecimiento.

Sobre el cuello de botella definitivo: “That’s the ultimate bottleneck. Like it’s GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry.” (Ese es el cuello de botella definitivo. Como que son las GPUs y la energía. Creo que Sam básicamente está consiguiendo todo lo que es posible. Y algunas personas se preocupan si seremos capaces de usarlas. Yo no me preocupo.) La restricción no es la capacidad de investigación o las ideas—es el cómputo puro. Cada GPU que puedan conseguir será usada productivamente.

Sobre tareas vs. trabajos: “I believe reasoning models even currently are probably capable of doing most of them… these tasks are coming fast.” (Creo que los modelos de razonamiento incluso actualmente probablemente son capaces de hacer la mayoría de ellas… estas tareas están llegando rápido.) Kaiser aclara la distinción: la IA no reemplazará trabajos completos inmediatamente, pero las tareas basadas en computadora—hacer clic, escribir, programar—se están automatizando ahora. “En cuestión de meses” la IA de codificación pasó de adecuada a genuinamente útil.

Sobre la juventud del nuevo paradigma: “We’ve scaled it up a little bit but there could be way more scaling it up. There’s way more research methods to make it better.” (Lo hemos escalado un poco pero podría haber mucho más escalamiento. Hay muchos más métodos de investigación para mejorarlo.) A diferencia del escalamiento de transformers que se ha estancado debido a restricciones de datos, el paradigma de razonamiento apenas ha comenzado. La combinación de modelos base más grandes más razonamiento podría generar mejoras compuestas.

Puntos Clave

  • Dos paradigmas, trayectorias diferentes - El escalamiento puro de transformers está limitado por datos; los modelos de razonamiento están en un camino empinado ascendente con margen para crecer
  • Tareas de computadora primero, mundo físico después - Espera automatización rápida del trabajo basado en pantalla; robótica y tareas físicas tomarán más tiempo
  • La codificación es el canario - Las capacidades de IA para codificar pasaron de “aceptable” a “ayuda real” en solo tres meses; “la mitad del tiempo la gente simplemente le pide primero a Codex que codifique por ellos”
  • No AGI—¿pero importa? - A Kaiser no le gusta el término AGI; más importante es que la IA ahora puede “trabajar por horas y hacer algo útil”
  • Compensación entre destilación vs. escalamiento - OpenAI equilibra entrenar los modelos más grandes posibles con hacerlos lo suficientemente baratos para servir a más de 800M de usuarios
  • Horizonte de 1-2 años para mejora drástica - El paradigma de razonamiento más nueva infraestructura de cómputo podría producir saltos dramáticos de capacidad pronto

Panorama General

El marco conceptual de Kaiser resuelve la aparente contradicción entre “el progreso de la IA se está ralentizando” y “el progreso de la IA se está acelerando”—están hablando de diferentes paradigmas. El escalamiento puro de transformers ha madurado; los modelos de razonamiento apenas están comenzando. Para organizaciones planificando la adopción de IA, esto sugiere que las capacidades disponibles en 12-24 meses pueden ser dramáticamente mejores que las de hoy, particularmente para tareas que se benefician de “tiempo de pensamiento” extendido. La era de la IA que puede trabajar por horas, no segundos, está llegando más rápido de lo que la mayoría espera.