TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

¿Qué es una TPU?

Una Unidad de Procesamiento Tensorial (TPU) es un chip acelerador de IA diseñado a medida desarrollado por Google específicamente para cargas de trabajo de aprendizaje automático. A diferencia de las GPUs de propósito general, las TPUs están optimizadas para las operaciones matriciales que dominan el cómputo de redes neuronales—particularmente los cálculos tensoriales usados en entrenar y ejecutar modelos de aprendizaje profundo.

Generaciones de TPU

Google ha lanzado siete generaciones de TPUs:

Generación	Año	Características Clave
TPU v1	2016	Solo inferencia, 92 TFLOPS
TPU v2	2017	Capacidad de entrenamiento agregada
TPU v3	2018	Enfriamiento líquido, 420 TFLOPS
TPU v4	2021	275 TFLOPS por chip
TPU v5e	2023	Optimizado en costos
TPU v6 “Trillium”	2024	Eficiencia mejorada
TPU v7 “Ironwood”	2025	Optimizado para inferencia, 4,614 TFLOPS

Ironwood (TPU v7) - 2025

La última TPU de Google, Ironwood, representa un salto importante:

Rendimiento: 4,614 TFLOPS por chip—4x mejor que la generación anterior tanto para entrenamiento como inferencia.

Escala: Viene en configuraciones de 256 chips y 9,216 chips. A escala completa, entrega 42.5 exaflops de cómputo FP8—más poderoso que la supercomputadora más grande del mundo.

Memoria: 1.77 petabytes de Memoria de Alto Ancho de Banda compartida a través del superpod.

Red: Chips conectados vía Interconexión Entre Chips (ICI) a 9.6 Tb/s.

Enfoque de Diseño: Primera TPU diseñada específicamente para inferencia, optimizada para “modelos pensantes” incluyendo LLMs y arquitecturas de Mezcla de Expertos.

Adopción de la Industria

Anthropic planea usar hasta 1 millón de TPUs para ejecutar Claude.

Meta está en conversaciones con Google para desplegar TPUs en sus centros de datos.

Neoclouds como Crusoe y CoreWeave también están explorando despliegues de TPU.

Cómo se Diseñan las TPUs

Google usa AlphaChip, un sistema de aprendizaje por refuerzo, para generar diseños de chips. Este enfoque diseñado por IA se ha usado para las últimas tres generaciones de TPU, creando diseños que superan las alternativas diseñadas por humanos.

Broadcom fabrica los chips basándose en las especificaciones de Google, con fabricación a través de TSMC.

TPU vs GPU

Aspecto	TPU	GPU (ej., NVIDIA H100)
Diseño	Personalizado para IA	Cómputo paralelo general
Disponibilidad	Solo Google Cloud	Ampliamente disponible
Optimización	Operaciones matriciales/tensoriales	Cargas de trabajo más amplias
Escala	Construido para clusters masivos	Individual o cluster
Software	TensorFlow/JAX nativo	Ecosistema CUDA

Por Qué Importa

Las TPUs demuestran que el silicio personalizado puede superar al hardware de propósito general para cargas de trabajo de IA específicas. A medida que los costos de entrenamiento de IA alcanzan miles de millones de dólares, las ganancias de eficiencia de chips especializados se vuelven económicamente cruciales. La inversión de Google en TPUs les da independencia de infraestructura del dominio de GPU de NVIDIA.

Lecturas Relacionadas

Jeff Dean - Científico Jefe de Google, arquitecto clave de TPU
Infraestructura de IA - El ecosistema de cómputo más amplio
Leyes de Escalado - Lo que permite la escala de TPU

Mentioned In

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.

Related Terms

gpu ai infrastructure scaling laws

TPU