Ilya Sutskever sur Pourquoi les Modèles Ne Généralisent Toujours Pas Comme les Humains
L'ancien Chief Scientist d'OpenAI explique l'écart fondamental entre la performance aux évaluations et la capacité réelle, pourquoi nous sommes de retour à l'ère de la recherche, et ce que les fonctions de valeur pourraient débloquer.
Perspective
Voici Ilya Sutskever dans ses réflexions les plus profondes - assis avec Dwarkesh Patel pour une conversation approfondie sur ce qui manque réellement aux systèmes d'IA actuels. Pas d'annonces de produits, pas de battage médiatique - juste deux personnes aux prises avec les questions scientifiques fondamentales.
La déconnexion entre évaluation et réalité est l'énigme centrale. Les modèles remportent des médailles d'or aux Olympiades Internationales de Mathématiques mais ne peuvent pas corriger un bug de manière fiable sans réintroduire le précédent. L'explication d'Ilya est claire : l'entraînement RL est trop étroitement optimisé. Les équipes regardent les évaluations, construisent des environnements qui ciblent ces évaluations, et finissent avec l'équivalent d'un étudiant qui a pratiqué 10 000 heures pour la programmation compétitive - techniquement brillant mais manquant du "facteur X" qui crée une capacité réelle. "Les modèles ressemblent beaucoup plus au premier étudiant mais encore davantage."
L'intuition du pré-entraînement est sous-estimée. Lorsque vous faites du pré-entraînement, vous n'avez pas à choisir les données - vous prenez simplement tout. Mais l'entraînement RL nécessite de choisir des environnements, et ces choix sont souvent rétro-conçus à partir de benchmarks. "Le véritable reward hacking, ce sont les chercheurs humains qui sont trop concentrés sur les évaluations."
Nous sommes de retour à l'ère de la recherche. Ilya présente l'histoire de l'IA comme oscillant entre différentes ères : 2012-2020 était la recherche, 2020-2025 était la mise à l'échelle, et maintenant - avec un calcul si coûteux et des données de pré-entraînement finies - nous revenons à la recherche. "Croit-on vraiment que si l'on multiplie l'échelle par 100, tout serait transformé ? Je ne pense pas que ce soit vrai."
Les fonctions de valeur pourraient être la clé. La conversation revient sans cesse sur la façon dont les humains apprennent - les adolescents conduisent après 10 heures, les chercheurs adoptent des styles de pensée de leurs mentors. Ilya cite le cas d'un patient victime d'un AVC qui a perdu le traitement émotionnel et est devenu incapable de prendre des décisions. Les émotions pourraient être une fonction de valeur codée en dur par l'évolution. Le RL actuel n'a rien de comparable - vous n'obtenez aucun signal d'apprentissage tant que vous n'avez pas terminé une tâche et évalué le résultat.
Le problème de généralisation est fondamental. Les modèles généralisent "nettement moins bien que les gens" et c'est "super évident". Même dans des domaines sans préalable évolutif (mathématiques, codage), les humains apprennent plus rapidement et de manière plus robuste. Cela suggère quelque chose au-delà du simple besoin de plus de données ou de calcul.
Points Clés
- Performance aux évaluations ≠ capacité réelle - Les modèles sont comme des étudiants hyper-spécialisés en compétition ; ils manquent de goût et de jugement généraux
- L'entraînement RL crée le problème - Les équipes optimisent pour les évaluations, produisant une capacité étroite plutôt que générale
- Nous sommes de retour à l'ère de la recherche - La mise à l'échelle seule ne transformera pas les capacités ; des percées fondamentales sont nécessaires
- Les fonctions de valeur sont sous-explorées - Pourraient court-circuiter le problème "attendre la fin de la tâche" dans le RL
- Les émotions humaines sont peut-être des fonctions de valeur codées en dur - L'évolution nous a donné des signaux de prise de décision robustes que les modèles n'ont pas
- L'écart de généralisation est fondamental - Les humains apprennent plus rapidement et de manière plus robuste même dans des domaines non-évolutifs
- Les données de pré-entraînement sont finies - L'ère du "il suffit d'augmenter l'échelle" se termine ; de nouvelles recettes sont nécessaires
Vue d'Ensemble
L'ère de la mise à l'échelle qui a défini l'IA de 2020 à 2025 touche peut-être à sa fin. La prochaine percée ne viendra pas de modèles plus grands - elle viendra de la résolution du problème de généralisation qui fait que l'IA actuelle ressemble à un stagiaire brillant mais peu fiable plutôt qu'à un collègue de confiance.


