TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

Co je TPU?

Tensor Processing Unit (TPU) je vlastní AI akcelerační čip vyvinutý Googlem specificky pro machine learning úlohy. Na rozdíl od univerzálních GPU jsou TPU optimalizovány pro maticové operace, které dominují výpočtům neuronových sítí—zvláště tenzorové výpočty používané v trénování a provozování modelů hlubokého učení.

Generace TPU

Google vydal sedm generací TPU:

GeneraceRokKlíčové funkce
TPU v12016Pouze inference, 92 TFLOPS
TPU v22017Přidána trénovací schopnost
TPU v32018Kapalinové chlazení, 420 TFLOPS
TPU v42021275 TFLOPS na čip
TPU v5e2023Optimalizováno na náklady
TPU v6 “Trillium”2024Zvýšená efektivita
TPU v7 “Ironwood”2025Optimalizováno pro inferenci, 4 614 TFLOPS

Ironwood (TPU v7) - 2025

Nejnovější TPU od Google, Ironwood, představuje velký skok:

Výkon: 4 614 TFLOPS na čip—4x lepší než předchozí generace pro trénování i inferenci.

Škála: Přichází v konfiguracích 256 čipů a 9 216 čipů. V plné škále dodává 42,5 exaflops FP8 výpočtů—silnější než největší superpočítač světa.

Paměť: 1,77 petabyte sdílené High Bandwidth Memory napříč superpod.

Síťování: Čipy spojené přes Inter-Chip Interconnect (ICI) na 9,6 Tb/s.

Návrhové zaměření: První TPU navržená specificky pro inferenci, optimalizovaná pro “thinking models” včetně LLM a Mixture of Experts architektur.

Průmyslová adopce

Anthropic plánuje použít až 1 milion TPU k provozování Claude.

Meta je v jednání s Googlem o nasazení TPU ve svých datových centrech.

Neoclouds jako Crusoe a CoreWeave také zkoumají nasazení TPU.

Jak jsou TPU navrhovány

Google používá AlphaChip, posilovací učební systém, k generování layoutů čipů. Tento AI-navržený přístup byl použit pro poslední tři generace TPU, vytvářející layouty, které překonávají lidsky navržené alternativy.

Broadcom vyrábí čipy na základě specifikací Google, s fabrikací přes TSMC.

TPU vs GPU

AspektTPUGPU (např. NVIDIA H100)
DesignVlastní pro AIObecné paralelní výpočty
DostupnostPouze Google CloudŠiroce dostupné
OptimalizaceMaticové/tenzorové operaceŠirší úlohy
ŠkálaPostaveny pro masivní clusteryIndividuální nebo cluster
SoftwareTensorFlow/JAX nativníCUDA ekosystém

Proč to záleží

TPU demonstrují, že vlastní křemík může překonat univerzální hardware pro specifické AI úlohy. Jak náklady na trénování AI dosahují miliard dolarů, zisky z efektivity ze specializovaných čipů se stávají ekonomicky zásadními. Investice Google do TPU jim dává nezávislost infrastruktury od dominance NVIDIA GPU.

Související čtení

Mentioned In

Video thumbnail

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.