Co-inventeur des Transformers : 'Les modèles de raisonnement ne font que commencer—Attendez-vous à une amélioration rapide dans 1 à 2 ans'
Perspective
Lukasz Kaiser occupe une position unique dans l’histoire de l’IA : il a co-écrit le papier de 2017 “Attention Is All You Need” qui a introduit les Transformers, et il est le seul des huit auteurs à avoir choisi de rester ingénieur plutôt que de fonder une startup. Maintenant chez OpenAI, il a dirigé la recherche qui a produit les modèles de raisonnement O1—ce qu’il appelle “un nouveau paradigme” fondamentalement différent de la mise à l’échelle des transformers. Cette interview offre une vue intérieure rare de la direction réelle de l’IA.
Sur le paradigme de raisonnement : “There was this transformer paradigm when we were scaling up transformers… But there is the new paradigm which is reasoning and that one is only starting. I feel like this paradigm is so young that it’s only on this very steep path up.” (Il y avait ce paradigme de transformer lorsque nous mettions à l’échelle les transformers… Mais il y a le nouveau paradigme qui est le raisonnement et celui-ci ne fait que commencer. J’ai l’impression que ce paradigme est si jeune qu’il est seulement sur cette voie très abrupte vers le haut.) Kaiser fait la distinction entre les rendements décroissants sur la pure mise à l’échelle des transformers et le potentiel inexploité des modèles de raisonnement, qui selon lui “apprennent à partir d’un ordre de grandeur moins de données”.
Sur l’absence d’hiver de l’IA : “I don’t think there is any winter in this sense coming. If anything, it may actually have a very sharp improvement in the next year or two—which is something to almost be a little scared of.” (Je ne pense pas qu’il y ait un hiver qui arrive dans ce sens. Si quoi que ce soit, il pourrait en fait y avoir une amélioration très rapide dans la prochaine année ou deux—ce qui est quelque chose dont il faut presque avoir un peu peur.) Alors que certains spéculent sur l’atteinte de murs de mise à l’échelle, Kaiser voit le paradigme de raisonnement comme offrant une nouvelle ascension abrupte avec beaucoup de marge.
Sur le goulot d’étranglement ultime : “That’s the ultimate bottleneck. Like it’s GPUs and energy. I think Sam is basically getting as much more as is possible. And some people worry will we be able to use them. I do not worry.” (C’est le goulot d’étranglement ultime. C’est les GPU et l’énergie. Je pense que Sam obtient essentiellement autant que possible. Et certaines personnes s’inquiètent de savoir si nous serons capables de les utiliser. Je ne m’inquiète pas.) La contrainte n’est pas la capacité de recherche ou les idées—c’est le calcul brut. Chaque GPU qu’ils peuvent obtenir sera utilisé de manière productive.
Sur les tâches vs les emplois : “I believe reasoning models even currently are probably capable of doing most of them… these tasks are coming fast.” (Je crois que les modèles de raisonnement, même actuellement, sont probablement capables de faire la plupart d’entre elles… ces tâches arrivent rapidement.) Kaiser clarifie la distinction : l’IA ne remplacera pas immédiatement des emplois entiers, mais les tâches informatiques—cliquer, écrire, programmer—sont automatisées maintenant. “En l’espace de quelques mois”, le codage par IA est passé d’adéquat à véritablement utile.
Sur la jeunesse du nouveau paradigme : “We’ve scaled it up a little bit but there could be way more scaling it up. There’s way more research methods to make it better.” (Nous l’avons mis à l’échelle un peu mais il pourrait y avoir beaucoup plus de mise à l’échelle. Il y a beaucoup plus de méthodes de recherche pour l’améliorer.) Contrairement à la mise à l’échelle des transformers qui a plafonné en raison de contraintes de données, le paradigme de raisonnement vient à peine de commencer. La combinaison de modèles de base plus grands et du raisonnement pourrait produire des améliorations composées.
Points clés
- Deux paradigmes, trajectoires différentes - La pure mise à l’échelle des transformers est limitée par les données ; les modèles de raisonnement sont sur une trajectoire ascendante abrupte avec de la place pour croître
- Tâches informatiques d’abord, monde physique plus tard - Attendez-vous à une automatisation rapide du travail sur écran ; la robotique et les tâches physiques prendront plus de temps
- Le codage est le canari - Les capacités de codage IA sont passées de “correct” à “aide réelle” en seulement trois mois ; “la moitié du temps, les gens demandent simplement à Codex de coder pour eux en premier”
- Pas d’AGI—mais est-ce important ? - Kaiser n’aime pas le terme AGI ; ce qui est plus important, c’est que l’IA peut maintenant “travailler pendant des heures et faire quelque chose d’utile”
- Compromis distillation vs mise à l’échelle - OpenAI équilibre la formation des plus grands modèles possibles avec leur rendre suffisamment bon marché pour servir 800M+ d’utilisateurs
- Horizon de 1-2 ans pour une amélioration rapide - Le paradigme de raisonnement plus la nouvelle infrastructure de calcul pourrait produire des sauts de capacité dramatiques bientôt
Vue d’ensemble
Le cadrage de Kaiser résout la contradiction apparente entre “le progrès de l’IA ralentit” et “le progrès de l’IA s’accélère”—ils parlent de paradigmes différents. La pure mise à l’échelle des transformers a mûri ; les modèles de raisonnement ne font que commencer. Pour les organisations planifiant l’adoption de l’IA, cela suggère que les capacités disponibles dans 12-24 mois pourraient être considérablement meilleures qu’aujourd’hui, particulièrement pour les tâches qui bénéficient d’un “temps de réflexion” prolongé. L’ère de l’IA qui peut travailler pendant des heures, pas des secondes, arrive plus vite que la plupart ne le pensent.