TPU
/tiː piː juː/
Also known as: Tensor Processing Unit, Google TPU
Qu’est-ce qu’un TPU ?
Une unité de traitement tensoriel (Tensor Processing Unit ou TPU) est une puce accélératrice d’IA conçue sur mesure développée par Google spécifiquement pour les charges de travail d’apprentissage automatique. Contrairement aux GPU polyvalents, les TPU sont optimisés pour les opérations matricielles qui dominent le calcul des réseaux de neurones—en particulier les calculs tensoriels utilisés dans l’entraînement et l’exécution des modèles d’apprentissage profond.
Générations de TPU
Google a publié sept générations de TPU :
| Génération | Année | Caractéristiques clés |
|---|---|---|
| TPU v1 | 2016 | Inférence uniquement, 92 TFLOPS |
| TPU v2 | 2017 | Capacité d’entraînement ajoutée |
| TPU v3 | 2018 | Refroidissement liquide, 420 TFLOPS |
| TPU v4 | 2021 | 275 TFLOPS par puce |
| TPU v5e | 2023 | Optimisé pour les coûts |
| TPU v6 “Trillium” | 2024 | Efficacité améliorée |
| TPU v7 “Ironwood” | 2025 | Optimisé pour l’inférence, 4 614 TFLOPS |
Ironwood (TPU v7) - 2025
Le dernier TPU de Google, Ironwood, représente un bond majeur :
Performance : 4 614 TFLOPS par puce—4x meilleur que la génération précédente pour l’entraînement et l’inférence.
Échelle : Disponible en configurations de 256 puces et 9 216 puces. À pleine échelle, délivre 42,5 exaflops de calcul FP8—plus puissant que le plus grand supercalculateur du monde.
Mémoire : 1,77 pétaoctets de mémoire à bande passante élevée partagée sur le superpod.
Réseau : Puces connectées via Inter-Chip Interconnect (ICI) à 9,6 Tb/s.
Focus de conception : Premier TPU conçu spécifiquement pour l’inférence, optimisé pour les “modèles pensants” incluant les LLM et les architectures Mixture of Experts.
Adoption par l’industrie
Anthropic prévoit d’utiliser jusqu’à 1 million de TPU pour exécuter Claude.
Meta est en discussions avec Google pour déployer des TPU dans ses centres de données.
Neoclouds comme Crusoe et CoreWeave explorent également les déploiements de TPU.
Comment les TPU sont conçus
Google utilise AlphaChip, un système d’apprentissage par renforcement, pour générer les layouts de puces. Cette approche de conception par IA a été utilisée pour les trois dernières générations de TPU, créant des layouts qui surpassent les alternatives conçues par des humains.
Broadcom fabrique les puces selon les spécifications de Google, avec la fabrication via TSMC.
TPU vs GPU
| Aspect | TPU | GPU (ex. NVIDIA H100) |
|---|---|---|
| Conception | Personnalisé pour l’IA | Calcul parallèle général |
| Disponibilité | Google Cloud uniquement | Largement disponible |
| Optimisation | Opérations matricielles/tensorielles | Charges de travail plus larges |
| Échelle | Construit pour des clusters massifs | Individuel ou cluster |
| Logiciel | TensorFlow/JAX natif | Écosystème CUDA |
Pourquoi c’est important
Les TPU démontrent que le silicium personnalisé peut surpasser le matériel polyvalent pour des charges de travail IA spécifiques. Alors que les coûts d’entraînement IA atteignent des milliards de dollars, les gains d’efficacité des puces spécialisées deviennent cruciaux économiquement. L’investissement de Google dans les TPU leur donne une indépendance d’infrastructure par rapport à la domination des GPU de NVIDIA.
Lectures connexes
- Jeff Dean - Scientifique en chef de Google, architecte clé des TPU
- AI Infrastructure - L’écosystème de calcul plus large
- Scaling Laws - Ce que permet l’échelle des TPU