TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

Qu’est-ce qu’un TPU ?

Une unité de traitement tensoriel (Tensor Processing Unit ou TPU) est une puce accélératrice d’IA conçue sur mesure développée par Google spécifiquement pour les charges de travail d’apprentissage automatique. Contrairement aux GPU polyvalents, les TPU sont optimisés pour les opérations matricielles qui dominent le calcul des réseaux de neurones—en particulier les calculs tensoriels utilisés dans l’entraînement et l’exécution des modèles d’apprentissage profond.

Générations de TPU

Google a publié sept générations de TPU :

Génération	Année	Caractéristiques clés
TPU v1	2016	Inférence uniquement, 92 TFLOPS
TPU v2	2017	Capacité d’entraînement ajoutée
TPU v3	2018	Refroidissement liquide, 420 TFLOPS
TPU v4	2021	275 TFLOPS par puce
TPU v5e	2023	Optimisé pour les coûts
TPU v6 “Trillium”	2024	Efficacité améliorée
TPU v7 “Ironwood”	2025	Optimisé pour l’inférence, 4 614 TFLOPS

Ironwood (TPU v7) - 2025

Le dernier TPU de Google, Ironwood, représente un bond majeur :

Performance : 4 614 TFLOPS par puce—4x meilleur que la génération précédente pour l’entraînement et l’inférence.

Échelle : Disponible en configurations de 256 puces et 9 216 puces. À pleine échelle, délivre 42,5 exaflops de calcul FP8—plus puissant que le plus grand supercalculateur du monde.

Mémoire : 1,77 pétaoctets de mémoire à bande passante élevée partagée sur le superpod.

Réseau : Puces connectées via Inter-Chip Interconnect (ICI) à 9,6 Tb/s.

Focus de conception : Premier TPU conçu spécifiquement pour l’inférence, optimisé pour les “modèles pensants” incluant les LLM et les architectures Mixture of Experts.

Adoption par l’industrie

Anthropic prévoit d’utiliser jusqu’à 1 million de TPU pour exécuter Claude.

Meta est en discussions avec Google pour déployer des TPU dans ses centres de données.

Neoclouds comme Crusoe et CoreWeave explorent également les déploiements de TPU.

Comment les TPU sont conçus

Google utilise AlphaChip, un système d’apprentissage par renforcement, pour générer les layouts de puces. Cette approche de conception par IA a été utilisée pour les trois dernières générations de TPU, créant des layouts qui surpassent les alternatives conçues par des humains.

Broadcom fabrique les puces selon les spécifications de Google, avec la fabrication via TSMC.

TPU vs GPU

Aspect	TPU	GPU (ex. NVIDIA H100)
Conception	Personnalisé pour l’IA	Calcul parallèle général
Disponibilité	Google Cloud uniquement	Largement disponible
Optimisation	Opérations matricielles/tensorielles	Charges de travail plus larges
Échelle	Construit pour des clusters massifs	Individuel ou cluster
Logiciel	TensorFlow/JAX natif	Écosystème CUDA

Pourquoi c’est important

Les TPU démontrent que le silicium personnalisé peut surpasser le matériel polyvalent pour des charges de travail IA spécifiques. Alors que les coûts d’entraînement IA atteignent des milliards de dollars, les gains d’efficacité des puces spécialisées deviennent cruciaux économiquement. L’investissement de Google dans les TPU leur donne une indépendance d’infrastructure par rapport à la domination des GPU de NVIDIA.

Lectures connexes

Jeff Dean - Scientifique en chef de Google, architecte clé des TPU
AI Infrastructure - L’écosystème de calcul plus large
Scaling Laws - Ce que permet l’échelle des TPU

Mentioned In

Jeff Dean

Les TPU ont été conçus spécifiquement pour les opérations matricielles qui dominent le calcul des réseaux de neurones.

Related Terms

gpu ai infrastructure scaling laws

TPU