TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

什么是 TPU？

张量处理单元（TPU）是 Google 专门为机器学习工作负载开发的定制设计 AI 加速器芯片。与通用 GPU 不同，TPU 针对主导神经网络计算的矩阵运算进行了优化——特别是深度学习模型训练和运行中使用的张量计算。

Google 已发布七代 TPU：

Google 最新的 TPU，Ironwood，代表了重大飞跃：

性能：每芯片 4,614 TFLOPS——训练和推理性能均比上一代好 4 倍。

规模：有 256 芯片和 9,216 芯片配置。在完整规模下，提供 42.5 exaflops 的 FP8 计算——比世界上最大的超级计算机更强大。

内存：整个超级舱中有 1.77 PB 的共享高带宽内存。

网络：芯片通过芯片间互连（ICI）以 9.6 Tb/s 连接。

设计重点：第一个专门为推理设计的 TPU，针对包括大语言模型和专家混合架构在内的”思考模型”进行优化。

Anthropic 计划使用多达 100 万个 TPU 来运行 Claude。

Meta 正在与 Google 谈判在其数据中心部署 TPU。

Neoclouds（如 Crusoe 和 CoreWeave）也在探索 TPU 部署。

Google 使用 AlphaChip（一个强化学习系统）来生成芯片布局。这种 AI 设计方法已用于最后三代 TPU，创建了超越人类设计替代方案的布局。

Broadcom 根据 Google 的规格制造芯片，通过 TSMC 进行制造。

TPU 证明了定制硅可以在特定 AI 工作负载上优于通用硬件。随着 AI 训练成本达到数十亿美元，专用芯片的效率提升在经济上变得至关重要。Google 对 TPU 的投资使他们摆脱了对 NVIDIA GPU 主导地位的基础设施依赖。

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.