TPU
/tiː piː juː/
Also known as: Tensor Processing Unit, Google TPU
什么是 TPU?
张量处理单元(TPU)是 Google 专门为机器学习工作负载开发的定制设计 AI 加速器芯片。与通用 GPU 不同,TPU 针对主导神经网络计算的矩阵运算进行了优化——特别是深度学习模型训练和运行中使用的张量计算。
TPU 世代
Google 已发布七代 TPU:
| 世代 | 年份 | 关键特性 |
|---|---|---|
| TPU v1 | 2016 | 仅推理,92 TFLOPS |
| TPU v2 | 2017 | 添加训练能力 |
| TPU v3 | 2018 | 液冷,420 TFLOPS |
| TPU v4 | 2021 | 每芯片 275 TFLOPS |
| TPU v5e | 2023 | 成本优化 |
| TPU v6 “Trillium” | 2024 | 增强效率 |
| TPU v7 “Ironwood” | 2025 | 推理优化,4,614 TFLOPS |
Ironwood(TPU v7)- 2025
Google 最新的 TPU,Ironwood,代表了重大飞跃:
性能:每芯片 4,614 TFLOPS——训练和推理性能均比上一代好 4 倍。
规模:有 256 芯片和 9,216 芯片配置。在完整规模下,提供 42.5 exaflops 的 FP8 计算——比世界上最大的超级计算机更强大。
内存:整个超级舱中有 1.77 PB 的共享高带宽内存。
网络:芯片通过芯片间互连(ICI)以 9.6 Tb/s 连接。
设计重点:第一个专门为推理设计的 TPU,针对包括大语言模型和专家混合架构在内的”思考模型”进行优化。
行业采用
Anthropic 计划使用多达 100 万个 TPU 来运行 Claude。
Meta 正在与 Google 谈判在其数据中心部署 TPU。
Neoclouds(如 Crusoe 和 CoreWeave)也在探索 TPU 部署。
TPU 如何设计
Google 使用 AlphaChip(一个强化学习系统)来生成芯片布局。这种 AI 设计方法已用于最后三代 TPU,创建了超越人类设计替代方案的布局。
Broadcom 根据 Google 的规格制造芯片,通过 TSMC 进行制造。
TPU 与 GPU
| 方面 | TPU | GPU(例如 NVIDIA H100) |
|---|---|---|
| 设计 | 定制 AI | 通用并行计算 |
| 可用性 | 仅 Google Cloud | 广泛可用 |
| 优化 | 矩阵/张量运算 | 更广泛的工作负载 |
| 规模 | 为大规模集群而建 | 单个或集群 |
| 软件 | TensorFlow/JAX 原生 | CUDA 生态系统 |
为什么重要
TPU 证明了定制硅可以在特定 AI 工作负载上优于通用硬件。随着 AI 训练成本达到数十亿美元,专用芯片的效率提升在经济上变得至关重要。Google 对 TPU 的投资使他们摆脱了对 NVIDIA GPU 主导地位的基础设施依赖。