TPU
/tiː piː juː/
Also known as: Tensor Processing Unit, Google TPU
¿Qué es una TPU?
Una Unidad de Procesamiento Tensorial (TPU) es un chip acelerador de IA diseñado a medida desarrollado por Google específicamente para cargas de trabajo de aprendizaje automático. A diferencia de las GPUs de propósito general, las TPUs están optimizadas para las operaciones matriciales que dominan el cómputo de redes neuronales—particularmente los cálculos tensoriales usados en entrenar y ejecutar modelos de aprendizaje profundo.
Generaciones de TPU
Google ha lanzado siete generaciones de TPUs:
| Generación | Año | Características Clave |
|---|---|---|
| TPU v1 | 2016 | Solo inferencia, 92 TFLOPS |
| TPU v2 | 2017 | Capacidad de entrenamiento agregada |
| TPU v3 | 2018 | Enfriamiento líquido, 420 TFLOPS |
| TPU v4 | 2021 | 275 TFLOPS por chip |
| TPU v5e | 2023 | Optimizado en costos |
| TPU v6 “Trillium” | 2024 | Eficiencia mejorada |
| TPU v7 “Ironwood” | 2025 | Optimizado para inferencia, 4,614 TFLOPS |
Ironwood (TPU v7) - 2025
La última TPU de Google, Ironwood, representa un salto importante:
Rendimiento: 4,614 TFLOPS por chip—4x mejor que la generación anterior tanto para entrenamiento como inferencia.
Escala: Viene en configuraciones de 256 chips y 9,216 chips. A escala completa, entrega 42.5 exaflops de cómputo FP8—más poderoso que la supercomputadora más grande del mundo.
Memoria: 1.77 petabytes de Memoria de Alto Ancho de Banda compartida a través del superpod.
Red: Chips conectados vía Interconexión Entre Chips (ICI) a 9.6 Tb/s.
Enfoque de Diseño: Primera TPU diseñada específicamente para inferencia, optimizada para “modelos pensantes” incluyendo LLMs y arquitecturas de Mezcla de Expertos.
Adopción de la Industria
Anthropic planea usar hasta 1 millón de TPUs para ejecutar Claude.
Meta está en conversaciones con Google para desplegar TPUs en sus centros de datos.
Neoclouds como Crusoe y CoreWeave también están explorando despliegues de TPU.
Cómo se Diseñan las TPUs
Google usa AlphaChip, un sistema de aprendizaje por refuerzo, para generar diseños de chips. Este enfoque diseñado por IA se ha usado para las últimas tres generaciones de TPU, creando diseños que superan las alternativas diseñadas por humanos.
Broadcom fabrica los chips basándose en las especificaciones de Google, con fabricación a través de TSMC.
TPU vs GPU
| Aspecto | TPU | GPU (ej., NVIDIA H100) |
|---|---|---|
| Diseño | Personalizado para IA | Cómputo paralelo general |
| Disponibilidad | Solo Google Cloud | Ampliamente disponible |
| Optimización | Operaciones matriciales/tensoriales | Cargas de trabajo más amplias |
| Escala | Construido para clusters masivos | Individual o cluster |
| Software | TensorFlow/JAX nativo | Ecosistema CUDA |
Por Qué Importa
Las TPUs demuestran que el silicio personalizado puede superar al hardware de propósito general para cargas de trabajo de IA específicas. A medida que los costos de entrenamiento de IA alcanzan miles de millones de dólares, las ganancias de eficiencia de chips especializados se vuelven económicamente cruciales. La inversión de Google en TPUs les da independencia de infraestructura del dominio de GPU de NVIDIA.
Lecturas Relacionadas
- Jeff Dean - Científico Jefe de Google, arquitecto clave de TPU
- Infraestructura de IA - El ecosistema de cómputo más amplio
- Leyes de Escalado - Lo que permite la escala de TPU