TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

什么是 TPU?

张量处理单元(TPU)是 Google 专门为机器学习工作负载开发的定制设计 AI 加速器芯片。与通用 GPU 不同,TPU 针对主导神经网络计算的矩阵运算进行了优化——特别是深度学习模型训练和运行中使用的张量计算。

TPU 世代

Google 已发布七代 TPU:

世代年份关键特性
TPU v12016仅推理,92 TFLOPS
TPU v22017添加训练能力
TPU v32018液冷,420 TFLOPS
TPU v42021每芯片 275 TFLOPS
TPU v5e2023成本优化
TPU v6 “Trillium”2024增强效率
TPU v7 “Ironwood”2025推理优化,4,614 TFLOPS

Ironwood(TPU v7)- 2025

Google 最新的 TPU,Ironwood,代表了重大飞跃:

性能:每芯片 4,614 TFLOPS——训练和推理性能均比上一代好 4 倍。

规模:有 256 芯片和 9,216 芯片配置。在完整规模下,提供 42.5 exaflops 的 FP8 计算——比世界上最大的超级计算机更强大。

内存:整个超级舱中有 1.77 PB 的共享高带宽内存。

网络:芯片通过芯片间互连(ICI)以 9.6 Tb/s 连接。

设计重点:第一个专门为推理设计的 TPU,针对包括大语言模型和专家混合架构在内的”思考模型”进行优化。

行业采用

Anthropic 计划使用多达 100 万个 TPU 来运行 Claude。

Meta 正在与 Google 谈判在其数据中心部署 TPU。

Neoclouds(如 Crusoe 和 CoreWeave)也在探索 TPU 部署。

TPU 如何设计

Google 使用 AlphaChip(一个强化学习系统)来生成芯片布局。这种 AI 设计方法已用于最后三代 TPU,创建了超越人类设计替代方案的布局。

Broadcom 根据 Google 的规格制造芯片,通过 TSMC 进行制造。

TPU 与 GPU

方面TPUGPU(例如 NVIDIA H100)
设计定制 AI通用并行计算
可用性仅 Google Cloud广泛可用
优化矩阵/张量运算更广泛的工作负载
规模为大规模集群而建单个或集群
软件TensorFlow/JAX 原生CUDA 生态系统

为什么重要

TPU 证明了定制硅可以在特定 AI 工作负载上优于通用硬件。随着 AI 训练成本达到数十亿美元,专用芯片的效率提升在经济上变得至关重要。Google 对 TPU 的投资使他们摆脱了对 NVIDIA GPU 主导地位的基础设施依赖。

相关阅读

Mentioned In

Video thumbnail

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.