Jeff Dean : Un Tour de 15 Ans sur la Naissance des Modèles d'IA Modernes

AI Engineer
lectureresearchtrainingdeepmindtutorial

Perspective

Voici Jeff Dean - employé n°30 chez Google, créateur de MapReduce et BigTable, fondateur de Google Brain, aujourd’hui scientifique en chef chez DeepMind - qui raconte l’histoire définitive de la naissance des modèles d’IA modernes. C’est essentiellement l’histoire interne de l’essor du deep learning racontée par quelqu’un qui était présent pour tout cela.

L’humilité de se tromper sur l’échelle. En 1990, Dean était tellement enthousiaste à propos des réseaux de neurones qu’il a consacré son mémoire de fin d’études à l’entraînement parallèle sur une machine hypercube à 32 processeurs. “Je me suis complètement trompé. Il fallait environ un million de fois plus de puissance de traitement pour créer de très bons réseaux de neurones, pas 32 fois.” Cette intuition sur l’échelle s’est avérée correcte - juste erronée de plusieurs ordres de grandeur.

L’histoire des origines de Google Brain est délicieusement décontractée. En 2012, Dean a croisé Andrew Ng dans une micro-cuisine Google. Ng a mentionné que ses étudiants de Stanford obtenaient de bons résultats avec les réseaux de neurones sur la parole. La réponse de Dean : “Oh, c’est cool. On devrait entraîner de très grands réseaux de neurones.” Cette conversation est devenue Google Brain et le système de disbelief (nommé “en partie parce que les gens ne croyaient pas que ça allait marcher”).

Le calcul sur un coin de table qui a lancé les TPU. Dean a réalisé que si Google déployait son nouveau modèle de reconnaissance vocale haute qualité et que 100 millions de personnes parlaient à leur téléphone pendant 3 minutes par jour, ils devraient doubler la capacité totale des centres de données de Google. Le matériel spécialisé n’était pas optionnel - c’était existentiel. Le TPU v1 a offert une accélération de 15 à 30 fois par rapport aux CPU/GPU et une efficacité énergétique de 30 à 80 fois supérieure. L’article est aujourd’hui le plus cité des 50 ans d’histoire de l’ISCA.

Chaque percée majeure tient sur une diapositive. Word2vec et la découverte que les directions vectorielles ont du sens (roi - homme + femme = reine). Les modèles séquence-à-séquence pour la traduction. Les transformers montrant une efficacité de calcul 10 à 100 fois supérieure aux LSTM. L’apprentissage auto-supervisé sur du texte produisant “presque une infinité d’exemples d’entraînement”. Les Vision Transformers atteignant l’état de l’art avec 4 à 20 fois moins de calcul. Les modèles épars activant seulement 1 à 5% des paramètres par prédiction. Le prompting par chaîne de pensée. La distillation. RLHF.

Le cadrage des progrès est saisissant. “Il y a trois ans, nous étions vraiment enthousiastes d’avoir obtenu 15% de bonnes réponses sur les problèmes de mathématiques de quatrième.” Ce benchmark GSM8K - des problèmes de mots de collège comme “Sean a cinq jouets et pour Noël il en a eu deux de plus” - est maintenant essentiellement résolu.

Points Clés

  • Google Brain a commencé dans une micro-cuisine - Dean a rencontré Andrew Ng, décidé d‘“entraîner de très grands réseaux de neurones”
  • Disbelief : “mathématiquement faux mais ça marchait” - Entraînement asynchrone avec 200 répliques de modèle mettant à jour des paramètres partagés
  • Papier sur les chats (2012) - 10M d’images YouTube, apprentissage non supervisé, les neurones ont appris le concept de “chat” sans étiquettes
  • Les directions Word2vec sont sémantiques - Roi - homme + femme = reine ; directions passé/futur
  • Impératif TPU - Déployer une meilleure reconnaissance vocale aurait doublé les centres de données de Google
  • TPUv1 - 15 à 30 fois plus rapide, 30 à 80 fois plus économe en énergie que les CPU/GPU
  • Transformers (2017) - 10 à 100 fois moins de calcul que les LSTM pour la même précision ; attention plutôt que récurrence
  • Modèles épars - Seulement 1 à 5% des paramètres activés par prédiction ; Gemini utilise cela
  • Chaîne de pensée - Le modèle effectue plus de calcul par token en “montrant son travail”
  • Distillation - 3% des données d’entraînement avec des cibles souples égalent 100% des données avec des étiquettes dures
  • Pathways - Un seul processus Python peut adresser 10 000 dispositifs TPU à travers des zones métropolitaines
  • Progrès GSM8K - 15% de précision il y a 3 ans sur les maths de quatrième ; maintenant essentiellement résolu

Vue d’Ensemble

Quinze ans de percées composées - du papier sur les chats aux transformers aux modèles épars - ont créé l’IA moderne. Chaque étape semblait incrémentale ; ensemble, elles sont transformatrices. La personne qui a construit MapReduce dirige maintenant des systèmes qui résolvent des problèmes jugés impossibles il y a trois ans.