TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

TPUとは何か?

Tensor Processing Unit(TPU)は、Googleが機械学習ワークロード専用に開発したカスタム設計のAIアクセラレータチップです。汎用GPUとは異なり、TPUはニューラルネットワーク計算を支配する行列演算、特に深層学習モデルのトレーニングと実行に使用されるテンソル計算に最適化されています。

TPU世代

Googleは7世代のTPUをリリースしました:

世代主要機能
TPU v12016推論のみ、92 TFLOPS
TPU v22017トレーニング機能を追加
TPU v32018液体冷却、420 TFLOPS
TPU v42021チップあたり275 TFLOPS
TPU v5e2023コスト最適化
TPU v6 “Trillium”2024効率向上
TPU v7 “Ironwood”2025推論最適化、4,614 TFLOPS

Ironwood(TPU v7) - 2025

Googleの最新TPU、Ironwoodは大きな飛躍を表します:

パフォーマンス: チップあたり4,614 TFLOPS—トレーニングと推論の両方で前世代の4倍優れています。

スケール: 256チップと9,216チップの構成で提供。フルスケールでは、42.5エクサフロップスのFP8計算を提供—世界最大のスーパーコンピュータよりも強力です。

メモリ: スーパーポッド全体で1.77ペタバイトの共有高帯域幅メモリ。

ネットワーク: チップはチップ間相互接続(ICI)を介して9.6 Tb/sで接続されます。

設計フォーカス: 推論専用に設計された最初のTPUで、LLMとMixture of Expertsアーキテクチャを含む「思考モデル」に最適化されています。

業界採用

AnthropicはClaudeを実行するために最大100万台のTPUを使用する予定です。

MetaはデータセンターでTPUを展開することについてGoogleと協議中です。

Neoclouds(CrusoeやCoreWeaveなど)もTPU展開を検討しています。

TPUの設計方法

GoogleはAlphaChip、強化学習システムを使用してチップレイアウトを生成します。このAI設計アプローチは過去3世代のTPUに使用されており、人間が設計した代替案を上回るレイアウトを作成します。

Broadcomは、TSMCを通じた製造でGoogleの仕様に基づいてチップを製造します。

TPU vs GPU

側面TPUGPU(例:NVIDIA H100)
設計AI用カスタム一般的な並列計算
可用性Google Cloudのみ広く利用可能
最適化行列/テンソル演算より広範なワークロード
スケール大規模クラスター用に構築個別またはクラスター
ソフトウェアTensorFlow/JAXネイティブCUDAエコシステム

なぜ重要か

TPUは、カスタムシリコンが特定のAIワークロードに対して汎用ハードウェアを上回ることができることを示しています。AIトレーニングコストが数十億ドルに達するにつれて、特殊化されたチップからの効率向上が経済的に重要になります。GoogleのTPUへの投資により、NVIDIAのGPU支配からのインフラストラクチャ独立性が得られます。

関連記事

Mentioned In

Video thumbnail

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.