Jeff Dean à NeurIPS : Le Croquis Sur Serviette Qui a Lancé les TPU et Pourquoi la Recherche Académique en IA Nécessite du Financement
Perspective
Voici Jeff Dean à NeurIPS 2024, annonçant tout juste le TPU v7 (Ironwood), et c’est une facette différente de lui - moins une conférence technique, plus une réflexion stratégique sur la manière dont l’innovation en IA se produit réellement et pourquoi elle nécessite un soutien institutionnel.
Le croquis sur serviette qui a changé le hardware pour toujours. En 2013, Dean a fait un calcul approximatif : si Google déployait son modèle amélioré de reconnaissance vocale auprès de 100 millions d’utilisateurs pendant quelques minutes par jour, ils devraient doubler la capacité totale des data centers de Google - juste pour une amélioration de fonctionnalité. “Les besoins en calcul sont devenus assez effrayants.” Cette expérience de pensée a lancé le programme TPU. En 2015, le TPUv1 était dans les data centers - 30 à 70 fois plus économe en énergie que les CPU/GPU, 15 à 30 fois plus rapide. Pré-transformer.
La co-conception hardware/software consiste à prévoir l’ensemble du domaine ML. Chaque génération de TPU nécessite de prédire où seront les calculs ML dans 2,5 à 6 ans. “Ce n’est pas une chose très facile.” La stratégie : ajouter de petites fonctionnalités hardware qui pourraient être importantes. Si elles s’avèrent payantes, vous êtes prêt. Sinon, vous avez perdu une petite partie de la surface de la puce. L’architecture transformer est née chez Google sur “une timeline assez similaire” aux TPU - sérendipité dans la co-conception.
L’abstraction Pathways est sous-estimée. Un seul processus Python peut adresser 20 000 dispositifs TPU à travers plusieurs pods, plusieurs bâtiments, plusieurs zones métropolitaines. Pathways détermine automatiquement quel réseau utiliser - interconnexion haute vitesse au sein des pods, réseau de data center entre les pods, liens longue distance entre les villes. Tout l’entraînement de Gemini fonctionne sur Jax → Pathways → XLA → TPUs.
Le financement de la recherche académique est le projet passion de Dean. “Toute la révolution du deep learning s’est construite sur la recherche académique d’il y a 30 à 40 ans.” Les réseaux neuronaux et la rétropropagation viennent du monde académique. Google lui-même a été construit sur TCP/IP, les processeurs RISC et le Stanford Digital Library Project (qui a financé PageRank). Dean plaide pour le modèle du Lo Institute : des subventions moonshot de 3 à 5 ans avec 3 à 5 PI et 30 à 50 doctorants ciblant des impacts sociétaux spécifiques.
Moonshot IA pour la santé : apprendre de chaque décision passée pour éclairer chaque décision future. L’objectif ambitieux de Dean : utiliser chaque décision de santé passée pour aider chaque clinicien et chaque personne à prendre de meilleures décisions. “Super difficile” en raison de la confidentialité, de la fragmentation réglementaire et des incohérences de format de données. Nécessite du federated learning et du ML préservant la confidentialité car “vous ne pourrez pas déplacer les données de santé de là où elles se trouvent.”
Points Clés
- TPU v7 (Ironwood) - 9 216 puces par pod, support de précision FP4, performance de pointe 3 600x vs TPUv2
- Le croquis sur serviette - Déployer une meilleure reconnaissance vocale aurait doublé les data centers de Google ; les TPU étaient existentiels
- TPUv1 (2015) - 30 à 70 fois plus économe en énergie, 15 à 30 fois plus rapide que les CPU/GPU ; ère pré-transformer
- Prévision hardware - Chaque génération de TPU nécessite de prédire les besoins ML 2,5 à 6 ans à l’avance
- Pathways - Un seul processus Python adresse 20 000 dispositifs à travers les métropoles ; tout l’entraînement de Gemini utilise ceci
- Continuum de publication - Pas binaire publier/ne pas publier ; les fonctionnalités Pixel sont déployées d’abord, les papiers SIGGRAPH suivent
- Conférence de recherche interne Google - 6 000 participants ; “pourrait sembler avoir un an d’avance” sur NeurIPS
- Moonshots de 3 à 5 ans - L’horizon temporel préféré de Dean : “pas si lointain qu’il n’aura pas d’impact, pas si court que vous ne puissiez pas être ambitieux”
- Papier Titan - Transformer hybride + récurrence ; “idée intéressante à explorer” mais pas encore dans Gemini
- Moonshot santé - Apprendre de chaque décision passée ; nécessite du federated learning, impossible de déplacer les données de santé
Vue d’Ensemble
Les TPU existent parce qu’un calcul sur serviette a montré que déployer une meilleure reconnaissance vocale doublerait les data centers de Google. La co-conception hardware/software nécessite de prédire les besoins ML 2,5 à 6 ans à l’avance. Aujourd’hui, un seul processus Python peut adresser 20 000 dispositifs à travers plusieurs villes. C’est l’infrastructure qui permet les modèles frontière.