TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

Was ist eine TPU?

Eine Tensor Processing Unit (TPU) ist ein maßgeschneiderter KI-Beschleuniger-Chip, der von Google speziell für maschinelle Lern-Workloads entwickelt wurde. Im Gegensatz zu Allzweck-GPUs sind TPUs für die Matrixoperationen optimiert, die neuronale Netzwerkberechnungen dominieren - insbesondere die Tensorberechnungen, die beim Training und Betrieb von Deep-Learning-Modellen verwendet werden.

TPU-Generationen

Google hat sieben Generationen von TPUs veröffentlicht:

GenerationJahrHauptmerkmale
TPU v12016Nur Inferenz, 92 TFLOPS
TPU v22017Trainingsfähigkeit hinzugefügt
TPU v32018Flüssigkeitskühlung, 420 TFLOPS
TPU v42021275 TFLOPS pro Chip
TPU v5e2023Kostenoptimiert
TPU v6 “Trillium”2024Verbesserte Effizienz
TPU v7 “Ironwood”2025Inferenzoptimiert, 4.614 TFLOPS

Ironwood (TPU v7) - 2025

Googles neueste TPU, Ironwood, repräsentiert einen großen Sprung:

Leistung: 4.614 TFLOPS pro Chip - 4x besser als die vorherige Generation für Training und Inferenz.

Skalierung: Kommt in 256-Chip- und 9.216-Chip-Konfigurationen. In voller Skalierung liefert es 42,5 Exaflops FP8-Rechenleistung - leistungsfähiger als der größte Supercomputer der Welt.

Speicher: 1,77 Petabytes gemeinsamer High Bandwidth Memory über den Superpod.

Netzwerk: Chips verbunden über Inter-Chip Interconnect (ICI) mit 9,6 Tb/s.

Design-Fokus: Erste TPU, die speziell für Inferenz entwickelt wurde, optimiert für “Thinking Models” einschließlich LLMs und Mixture-of-Experts-Architekturen.

Branchenadaption

Anthropic plant, bis zu 1 Million TPUs zu nutzen, um Claude zu betreiben.

Meta ist in Gesprächen mit Google, um TPUs in seinen Rechenzentren einzusetzen.

Neoclouds wie Crusoe und CoreWeave erkunden ebenfalls TPU-Einsätze.

Wie TPUs entwickelt werden

Google nutzt AlphaChip, ein Reinforcement-Learning-System, um Chip-Layouts zu generieren. Dieser KI-gestützte Ansatz wurde für die letzten drei TPU-Generationen verwendet und erstellt Layouts, die von Menschen entworfene Alternativen übertreffen.

Broadcom fertigt die Chips basierend auf Googles Spezifikationen, mit Herstellung durch TSMC.

TPU vs GPU

AspektTPUGPU (z.B. NVIDIA H100)
DesignMaßgeschneidert für KIAllgemeines paralleles Computing
VerfügbarkeitNur Google CloudWeit verbreitet verfügbar
OptimierungMatrix-/TensoroperationenBreitere Workloads
SkalierungGebaut für massive ClusterEinzeln oder Cluster
SoftwareTensorFlow/JAX nativCUDA-Ökosystem

Warum es wichtig ist

TPUs demonstrieren, dass maßgeschneidertes Silizium Allzweck-Hardware für spezifische KI-Workloads übertreffen kann. Da KI-Trainingskosten Milliarden von Dollar erreichen, werden Effizienzgewinne durch spezialisierte Chips wirtschaftlich entscheidend. Googles Investition in TPUs gibt ihnen Infrastrukturunabhängigkeit von NVIDIAs GPU-Dominanz.

Weiterführende Lektüre

Mentioned In

Video thumbnail

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.