AI 基础设施
/eɪ aɪ ˈɪnfrəstrʌktʃə/
Also known as: AI compute infrastructure, AI factories, AI data centers
什么是 AI 基础设施?
AI 基础设施是指大规模训练、部署和运行人工智能系统所需的完整技术堆栈。这包括专用芯片、数据中心、网络、电力系统、冷却以及使这些资源可访问的云平台。
正如 Jensen Huang 所描述的:“我们正在建造 AI 工厂——制造智能的数据中心。“
五层架构
1. 芯片(加速器)
为 AI 提供动力的计算引擎:
- GPU(NVIDIA H100、B200):通用 AI 加速器,市场主导
- TPU(Google):AI 工作负载的定制硅
- 定制 ASIC(Amazon Trainium、Microsoft Maia):云提供商构建自己的
- AI 芯片初创公司(Cerebras、Groq、SambaNova):替代架构
2. 系统
将芯片打包成可用配置:
- DGX 系统:NVIDIA 的完整 AI 超级计算机解决方案
- Pod/Superpod:大规模互连芯片集群
- 机架:计算硬件的物理组织
3. 网络
连接芯片进行分布式训练:
- InfiniBand:高带宽、低延迟互连
- 芯片间互连(ICI):Google 的 TPU 网络,9.6 Tb/s
- RDMA:远程直接内存访问,实现高效数据移动
4. 数据中心
容纳 AI 计算的物理设施:
- 电力需求:大型 AI 集群需要 10MW+
- 冷却:空气、液体和浸没式冷却解决方案
- 位置:靠近廉价电力(水电、核电)
5. 云平台
使基础设施可访问:
- AWS(Amazon):EC2、Bedrock、Trainium
- Google Cloud:TPU、Vertex AI
- Microsoft Azure:OpenAI 合作伙伴关系、定制硅
- Neoclouds(CoreWeave、Lambda):AI 专业提供商
投资规模
AI 基础设施正在推动前所未有的资本支出:
- Microsoft:计划投资 800 亿美元以上的数据中心
- Google:750 亿美元以上的资本支出(2025 年)
- Amazon:大规模 Trainium 芯片建设
- NVIDIA:每年 400 亿美元以上的数据中心收入
该行业正在进行数万亿美元的基础设施建设,可与电气化和互联网等历史性转型相媲美。
为什么重要
训练成本:GPT-4 级模型的训练成本超过 1 亿美元。基础设施决定了谁能竞争。
推理成本:向数十亿人提供 AI 需要大规模、高效的基础设施。
主权:国家正在将 AI 计算能力作为战略资产建设。
瓶颈:芯片供应、电力可用性和数据中心容量限制了 AI 进步。
“赢家的诅咒”
Satya Nadella 警告基础设施经济学:
“If you’re a model company, you may have a winner’s curse. Frontier models risk being one copy away from commoditization.” “如果你是一家模型公司,你可能会遇到赢家的诅咒。前沿模型面临着距离商品化只有一次复制的风险。”
基础设施提供商(云平台、芯片制造商)可能比 AI 模型开发者本身捕获更多价值。
电力和可持续性
AI 数据中心正在推动巨大的电力需求:
- 新核电交易:Microsoft 的三英里岛重启、Amazon 的 Talen Energy 投资
- 效率重点:每瓦特更多计算现在至关重要
- 用水量:冷却需要大量水资源
相关阅读
- TPU - Google 的定制 AI 芯片
- Jensen Huang - 定义”AI 工厂”的 NVIDIA CEO
- Jeff Dean - Google 的基础设施架构师