AI 基础设施

/eɪ aɪ ˈɪnfrəstrʌktʃə/

Also known as: AI compute infrastructure, AI factories, AI data centers

industry intermediate

什么是 AI 基础设施？

AI 基础设施是指大规模训练、部署和运行人工智能系统所需的完整技术堆栈。这包括专用芯片、数据中心、网络、电力系统、冷却以及使这些资源可访问的云平台。

正如 Jensen Huang 所描述的：“我们正在建造 AI 工厂——制造智能的数据中心。“

五层架构

1. 芯片（加速器）

为 AI 提供动力的计算引擎：

GPU（NVIDIA H100、B200）：通用 AI 加速器，市场主导
TPU（Google）：AI 工作负载的定制硅
定制 ASIC（Amazon Trainium、Microsoft Maia）：云提供商构建自己的
AI 芯片初创公司（Cerebras、Groq、SambaNova）：替代架构

2. 系统

将芯片打包成可用配置：

DGX 系统：NVIDIA 的完整 AI 超级计算机解决方案
Pod/Superpod：大规模互连芯片集群
机架：计算硬件的物理组织

3. 网络

连接芯片进行分布式训练：

InfiniBand：高带宽、低延迟互连
芯片间互连（ICI）：Google 的 TPU 网络，9.6 Tb/s
RDMA：远程直接内存访问，实现高效数据移动

4. 数据中心

容纳 AI 计算的物理设施：

电力需求：大型 AI 集群需要 10MW+
冷却：空气、液体和浸没式冷却解决方案
位置：靠近廉价电力（水电、核电）

5. 云平台

使基础设施可访问：

AWS（Amazon）：EC2、Bedrock、Trainium
Google Cloud：TPU、Vertex AI
Microsoft Azure：OpenAI 合作伙伴关系、定制硅
Neoclouds（CoreWeave、Lambda）：AI 专业提供商

投资规模

AI 基础设施正在推动前所未有的资本支出：

Microsoft：计划投资 800 亿美元以上的数据中心
Google：750 亿美元以上的资本支出（2025 年）
Amazon：大规模 Trainium 芯片建设
NVIDIA：每年 400 亿美元以上的数据中心收入

该行业正在进行数万亿美元的基础设施建设，可与电气化和互联网等历史性转型相媲美。

为什么重要

训练成本：GPT-4 级模型的训练成本超过 1 亿美元。基础设施决定了谁能竞争。

推理成本：向数十亿人提供 AI 需要大规模、高效的基础设施。

主权：国家正在将 AI 计算能力作为战略资产建设。

瓶颈：芯片供应、电力可用性和数据中心容量限制了 AI 进步。

“赢家的诅咒”

Satya Nadella 警告基础设施经济学：

“If you’re a model company, you may have a winner’s curse. Frontier models risk being one copy away from commoditization.” “如果你是一家模型公司，你可能会遇到赢家的诅咒。前沿模型面临着距离商品化只有一次复制的风险。”

基础设施提供商（云平台、芯片制造商）可能比 AI 模型开发者本身捕获更多价值。

电力和可持续性

AI 数据中心正在推动巨大的电力需求：

新核电交易：Microsoft 的三英里岛重启、Amazon 的 Talen Energy 投资
效率重点：每瓦特更多计算现在至关重要
用水量：冷却需要大量水资源

Mentioned In

Jensen Huang

We're building AI factories - data centers that manufacture intelligence.

Related Terms

tpu gpu scaling laws