TPU
/tiː piː juː/
Also known as: Tensor Processing Unit, Google TPU
TPUとは何か?
Tensor Processing Unit(TPU)は、Googleが機械学習ワークロード専用に開発したカスタム設計のAIアクセラレータチップです。汎用GPUとは異なり、TPUはニューラルネットワーク計算を支配する行列演算、特に深層学習モデルのトレーニングと実行に使用されるテンソル計算に最適化されています。
TPU世代
Googleは7世代のTPUをリリースしました:
| 世代 | 年 | 主要機能 |
|---|---|---|
| TPU v1 | 2016 | 推論のみ、92 TFLOPS |
| TPU v2 | 2017 | トレーニング機能を追加 |
| TPU v3 | 2018 | 液体冷却、420 TFLOPS |
| TPU v4 | 2021 | チップあたり275 TFLOPS |
| TPU v5e | 2023 | コスト最適化 |
| TPU v6 “Trillium” | 2024 | 効率向上 |
| TPU v7 “Ironwood” | 2025 | 推論最適化、4,614 TFLOPS |
Ironwood(TPU v7) - 2025
Googleの最新TPU、Ironwoodは大きな飛躍を表します:
パフォーマンス: チップあたり4,614 TFLOPS—トレーニングと推論の両方で前世代の4倍優れています。
スケール: 256チップと9,216チップの構成で提供。フルスケールでは、42.5エクサフロップスのFP8計算を提供—世界最大のスーパーコンピュータよりも強力です。
メモリ: スーパーポッド全体で1.77ペタバイトの共有高帯域幅メモリ。
ネットワーク: チップはチップ間相互接続(ICI)を介して9.6 Tb/sで接続されます。
設計フォーカス: 推論専用に設計された最初のTPUで、LLMとMixture of Expertsアーキテクチャを含む「思考モデル」に最適化されています。
業界採用
AnthropicはClaudeを実行するために最大100万台のTPUを使用する予定です。
MetaはデータセンターでTPUを展開することについてGoogleと協議中です。
Neoclouds(CrusoeやCoreWeaveなど)もTPU展開を検討しています。
TPUの設計方法
GoogleはAlphaChip、強化学習システムを使用してチップレイアウトを生成します。このAI設計アプローチは過去3世代のTPUに使用されており、人間が設計した代替案を上回るレイアウトを作成します。
Broadcomは、TSMCを通じた製造でGoogleの仕様に基づいてチップを製造します。
TPU vs GPU
| 側面 | TPU | GPU(例:NVIDIA H100) |
|---|---|---|
| 設計 | AI用カスタム | 一般的な並列計算 |
| 可用性 | Google Cloudのみ | 広く利用可能 |
| 最適化 | 行列/テンソル演算 | より広範なワークロード |
| スケール | 大規模クラスター用に構築 | 個別またはクラスター |
| ソフトウェア | TensorFlow/JAXネイティブ | CUDAエコシステム |
なぜ重要か
TPUは、カスタムシリコンが特定のAIワークロードに対して汎用ハードウェアを上回ることができることを示しています。AIトレーニングコストが数十億ドルに達するにつれて、特殊化されたチップからの効率向上が経済的に重要になります。GoogleのTPUへの投資により、NVIDIAのGPU支配からのインフラストラクチャ独立性が得られます。
関連記事
- Jeff Dean - Google主任科学者、主要TPUアーキテクト
- AIインフラストラクチャ - より広範な計算エコシステム
- スケーリング法則 - TPUスケールが可能にするもの