TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

¿Qué es una TPU?

Una Unidad de Procesamiento Tensorial (TPU) es un chip acelerador de IA diseñado a medida desarrollado por Google específicamente para cargas de trabajo de aprendizaje automático. A diferencia de las GPUs de propósito general, las TPUs están optimizadas para las operaciones matriciales que dominan el cómputo de redes neuronales—particularmente los cálculos tensoriales usados en entrenar y ejecutar modelos de aprendizaje profundo.

Generaciones de TPU

Google ha lanzado siete generaciones de TPUs:

GeneraciónAñoCaracterísticas Clave
TPU v12016Solo inferencia, 92 TFLOPS
TPU v22017Capacidad de entrenamiento agregada
TPU v32018Enfriamiento líquido, 420 TFLOPS
TPU v42021275 TFLOPS por chip
TPU v5e2023Optimizado en costos
TPU v6 “Trillium”2024Eficiencia mejorada
TPU v7 “Ironwood”2025Optimizado para inferencia, 4,614 TFLOPS

Ironwood (TPU v7) - 2025

La última TPU de Google, Ironwood, representa un salto importante:

Rendimiento: 4,614 TFLOPS por chip—4x mejor que la generación anterior tanto para entrenamiento como inferencia.

Escala: Viene en configuraciones de 256 chips y 9,216 chips. A escala completa, entrega 42.5 exaflops de cómputo FP8—más poderoso que la supercomputadora más grande del mundo.

Memoria: 1.77 petabytes de Memoria de Alto Ancho de Banda compartida a través del superpod.

Red: Chips conectados vía Interconexión Entre Chips (ICI) a 9.6 Tb/s.

Enfoque de Diseño: Primera TPU diseñada específicamente para inferencia, optimizada para “modelos pensantes” incluyendo LLMs y arquitecturas de Mezcla de Expertos.

Adopción de la Industria

Anthropic planea usar hasta 1 millón de TPUs para ejecutar Claude.

Meta está en conversaciones con Google para desplegar TPUs en sus centros de datos.

Neoclouds como Crusoe y CoreWeave también están explorando despliegues de TPU.

Cómo se Diseñan las TPUs

Google usa AlphaChip, un sistema de aprendizaje por refuerzo, para generar diseños de chips. Este enfoque diseñado por IA se ha usado para las últimas tres generaciones de TPU, creando diseños que superan las alternativas diseñadas por humanos.

Broadcom fabrica los chips basándose en las especificaciones de Google, con fabricación a través de TSMC.

TPU vs GPU

AspectoTPUGPU (ej., NVIDIA H100)
DiseñoPersonalizado para IACómputo paralelo general
DisponibilidadSolo Google CloudAmpliamente disponible
OptimizaciónOperaciones matriciales/tensorialesCargas de trabajo más amplias
EscalaConstruido para clusters masivosIndividual o cluster
SoftwareTensorFlow/JAX nativoEcosistema CUDA

Por Qué Importa

Las TPUs demuestran que el silicio personalizado puede superar al hardware de propósito general para cargas de trabajo de IA específicas. A medida que los costos de entrenamiento de IA alcanzan miles de millones de dólares, las ganancias de eficiencia de chips especializados se vuelven económicamente cruciales. La inversión de Google en TPUs les da independencia de infraestructura del dominio de GPU de NVIDIA.

Lecturas Relacionadas

Mentioned In

Video thumbnail

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.