TPU

/tiː piː juː/

Also known as: Tensor Processing Unit, Google TPU

technical intermediate

Was ist eine TPU?

Eine Tensor Processing Unit (TPU) ist ein maßgeschneiderter KI-Beschleuniger-Chip, der von Google speziell für maschinelle Lern-Workloads entwickelt wurde. Im Gegensatz zu Allzweck-GPUs sind TPUs für die Matrixoperationen optimiert, die neuronale Netzwerkberechnungen dominieren - insbesondere die Tensorberechnungen, die beim Training und Betrieb von Deep-Learning-Modellen verwendet werden.

TPU-Generationen

Google hat sieben Generationen von TPUs veröffentlicht:

Generation	Jahr	Hauptmerkmale
TPU v1	2016	Nur Inferenz, 92 TFLOPS
TPU v2	2017	Trainingsfähigkeit hinzugefügt
TPU v3	2018	Flüssigkeitskühlung, 420 TFLOPS
TPU v4	2021	275 TFLOPS pro Chip
TPU v5e	2023	Kostenoptimiert
TPU v6 “Trillium”	2024	Verbesserte Effizienz
TPU v7 “Ironwood”	2025	Inferenzoptimiert, 4.614 TFLOPS

Ironwood (TPU v7) - 2025

Googles neueste TPU, Ironwood, repräsentiert einen großen Sprung:

Leistung: 4.614 TFLOPS pro Chip - 4x besser als die vorherige Generation für Training und Inferenz.

Skalierung: Kommt in 256-Chip- und 9.216-Chip-Konfigurationen. In voller Skalierung liefert es 42,5 Exaflops FP8-Rechenleistung - leistungsfähiger als der größte Supercomputer der Welt.

Speicher: 1,77 Petabytes gemeinsamer High Bandwidth Memory über den Superpod.

Netzwerk: Chips verbunden über Inter-Chip Interconnect (ICI) mit 9,6 Tb/s.

Design-Fokus: Erste TPU, die speziell für Inferenz entwickelt wurde, optimiert für “Thinking Models” einschließlich LLMs und Mixture-of-Experts-Architekturen.

Branchenadaption

Anthropic plant, bis zu 1 Million TPUs zu nutzen, um Claude zu betreiben.

Meta ist in Gesprächen mit Google, um TPUs in seinen Rechenzentren einzusetzen.

Neoclouds wie Crusoe und CoreWeave erkunden ebenfalls TPU-Einsätze.

Wie TPUs entwickelt werden

Google nutzt AlphaChip, ein Reinforcement-Learning-System, um Chip-Layouts zu generieren. Dieser KI-gestützte Ansatz wurde für die letzten drei TPU-Generationen verwendet und erstellt Layouts, die von Menschen entworfene Alternativen übertreffen.

Broadcom fertigt die Chips basierend auf Googles Spezifikationen, mit Herstellung durch TSMC.

TPU vs GPU

Aspekt	TPU	GPU (z.B. NVIDIA H100)
Design	Maßgeschneidert für KI	Allgemeines paralleles Computing
Verfügbarkeit	Nur Google Cloud	Weit verbreitet verfügbar
Optimierung	Matrix-/Tensoroperationen	Breitere Workloads
Skalierung	Gebaut für massive Cluster	Einzeln oder Cluster
Software	TensorFlow/JAX nativ	CUDA-Ökosystem

Warum es wichtig ist

TPUs demonstrieren, dass maßgeschneidertes Silizium Allzweck-Hardware für spezifische KI-Workloads übertreffen kann. Da KI-Trainingskosten Milliarden von Dollar erreichen, werden Effizienzgewinne durch spezialisierte Chips wirtschaftlich entscheidend. Googles Investition in TPUs gibt ihnen Infrastrukturunabhängigkeit von NVIDIAs GPU-Dominanz.

Weiterführende Lektüre

Jeff Dean - Google Chief Scientist, Schlüsselarchitekt der TPU
AI Infrastructure - Das breitere Compute-Ökosystem
Scaling Laws - Was TPU-Skalierung ermöglicht

Mentioned In

Jeff Dean

TPUs were designed specifically for the matrix operations that dominate neural network computation.

Related Terms

gpu ai infrastructure scaling laws

TPU