TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

Qu’est-ce qu’un TPU ?

Une unité de traitement tensoriel (Tensor Processing Unit ou TPU) est une puce accélératrice d’IA conçue sur mesure développée par Google spécifiquement pour les charges de travail d’apprentissage automatique. Contrairement aux GPU polyvalents, les TPU sont optimisés pour les opérations matricielles qui dominent le calcul des réseaux de neurones—en particulier les calculs tensoriels utilisés dans l’entraînement et l’exécution des modèles d’apprentissage profond.

Générations de TPU

Google a publié sept générations de TPU :

GénérationAnnéeCaractéristiques clés
TPU v12016Inférence uniquement, 92 TFLOPS
TPU v22017Capacité d’entraînement ajoutée
TPU v32018Refroidissement liquide, 420 TFLOPS
TPU v42021275 TFLOPS par puce
TPU v5e2023Optimisé pour les coûts
TPU v6 “Trillium”2024Efficacité améliorée
TPU v7 “Ironwood”2025Optimisé pour l’inférence, 4 614 TFLOPS

Ironwood (TPU v7) - 2025

Le dernier TPU de Google, Ironwood, représente un bond majeur :

Performance : 4 614 TFLOPS par puce—4x meilleur que la génération précédente pour l’entraînement et l’inférence.

Échelle : Disponible en configurations de 256 puces et 9 216 puces. À pleine échelle, délivre 42,5 exaflops de calcul FP8—plus puissant que le plus grand supercalculateur du monde.

Mémoire : 1,77 pétaoctets de mémoire à bande passante élevée partagée sur le superpod.

Réseau : Puces connectées via Inter-Chip Interconnect (ICI) à 9,6 Tb/s.

Focus de conception : Premier TPU conçu spécifiquement pour l’inférence, optimisé pour les “modèles pensants” incluant les LLM et les architectures Mixture of Experts.

Adoption par l’industrie

Anthropic prévoit d’utiliser jusqu’à 1 million de TPU pour exécuter Claude.

Meta est en discussions avec Google pour déployer des TPU dans ses centres de données.

Neoclouds comme Crusoe et CoreWeave explorent également les déploiements de TPU.

Comment les TPU sont conçus

Google utilise AlphaChip, un système d’apprentissage par renforcement, pour générer les layouts de puces. Cette approche de conception par IA a été utilisée pour les trois dernières générations de TPU, créant des layouts qui surpassent les alternatives conçues par des humains.

Broadcom fabrique les puces selon les spécifications de Google, avec la fabrication via TSMC.

TPU vs GPU

AspectTPUGPU (ex. NVIDIA H100)
ConceptionPersonnalisé pour l’IACalcul parallèle général
DisponibilitéGoogle Cloud uniquementLargement disponible
OptimisationOpérations matricielles/tensoriellesCharges de travail plus larges
ÉchelleConstruit pour des clusters massifsIndividuel ou cluster
LogicielTensorFlow/JAX natifÉcosystème CUDA

Pourquoi c’est important

Les TPU démontrent que le silicium personnalisé peut surpasser le matériel polyvalent pour des charges de travail IA spécifiques. Alors que les coûts d’entraînement IA atteignent des milliards de dollars, les gains d’efficacité des puces spécialisées deviennent cruciaux économiquement. L’investissement de Google dans les TPU leur donne une indépendance d’infrastructure par rapport à la domination des GPU de NVIDIA.

Lectures connexes

Mentioned In

Video thumbnail

Jeff Dean

Les TPU ont été conçus spécifiquement pour les opérations matricielles qui dominent le calcul des réseaux de neurones.