TPU
/tiː piː juː/
Also known as: Tensor Processing Unit, Google TPU
Was ist eine TPU?
Eine Tensor Processing Unit (TPU) ist ein maßgeschneiderter KI-Beschleuniger-Chip, der von Google speziell für maschinelle Lern-Workloads entwickelt wurde. Im Gegensatz zu Allzweck-GPUs sind TPUs für die Matrixoperationen optimiert, die neuronale Netzwerkberechnungen dominieren - insbesondere die Tensorberechnungen, die beim Training und Betrieb von Deep-Learning-Modellen verwendet werden.
TPU-Generationen
Google hat sieben Generationen von TPUs veröffentlicht:
| Generation | Jahr | Hauptmerkmale |
|---|---|---|
| TPU v1 | 2016 | Nur Inferenz, 92 TFLOPS |
| TPU v2 | 2017 | Trainingsfähigkeit hinzugefügt |
| TPU v3 | 2018 | Flüssigkeitskühlung, 420 TFLOPS |
| TPU v4 | 2021 | 275 TFLOPS pro Chip |
| TPU v5e | 2023 | Kostenoptimiert |
| TPU v6 “Trillium” | 2024 | Verbesserte Effizienz |
| TPU v7 “Ironwood” | 2025 | Inferenzoptimiert, 4.614 TFLOPS |
Ironwood (TPU v7) - 2025
Googles neueste TPU, Ironwood, repräsentiert einen großen Sprung:
Leistung: 4.614 TFLOPS pro Chip - 4x besser als die vorherige Generation für Training und Inferenz.
Skalierung: Kommt in 256-Chip- und 9.216-Chip-Konfigurationen. In voller Skalierung liefert es 42,5 Exaflops FP8-Rechenleistung - leistungsfähiger als der größte Supercomputer der Welt.
Speicher: 1,77 Petabytes gemeinsamer High Bandwidth Memory über den Superpod.
Netzwerk: Chips verbunden über Inter-Chip Interconnect (ICI) mit 9,6 Tb/s.
Design-Fokus: Erste TPU, die speziell für Inferenz entwickelt wurde, optimiert für “Thinking Models” einschließlich LLMs und Mixture-of-Experts-Architekturen.
Branchenadaption
Anthropic plant, bis zu 1 Million TPUs zu nutzen, um Claude zu betreiben.
Meta ist in Gesprächen mit Google, um TPUs in seinen Rechenzentren einzusetzen.
Neoclouds wie Crusoe und CoreWeave erkunden ebenfalls TPU-Einsätze.
Wie TPUs entwickelt werden
Google nutzt AlphaChip, ein Reinforcement-Learning-System, um Chip-Layouts zu generieren. Dieser KI-gestützte Ansatz wurde für die letzten drei TPU-Generationen verwendet und erstellt Layouts, die von Menschen entworfene Alternativen übertreffen.
Broadcom fertigt die Chips basierend auf Googles Spezifikationen, mit Herstellung durch TSMC.
TPU vs GPU
| Aspekt | TPU | GPU (z.B. NVIDIA H100) |
|---|---|---|
| Design | Maßgeschneidert für KI | Allgemeines paralleles Computing |
| Verfügbarkeit | Nur Google Cloud | Weit verbreitet verfügbar |
| Optimierung | Matrix-/Tensoroperationen | Breitere Workloads |
| Skalierung | Gebaut für massive Cluster | Einzeln oder Cluster |
| Software | TensorFlow/JAX nativ | CUDA-Ökosystem |
Warum es wichtig ist
TPUs demonstrieren, dass maßgeschneidertes Silizium Allzweck-Hardware für spezifische KI-Workloads übertreffen kann. Da KI-Trainingskosten Milliarden von Dollar erreichen, werden Effizienzgewinne durch spezialisierte Chips wirtschaftlich entscheidend. Googles Investition in TPUs gibt ihnen Infrastrukturunabhängigkeit von NVIDIAs GPU-Dominanz.
Weiterführende Lektüre
- Jeff Dean - Google Chief Scientist, Schlüsselarchitekt der TPU
- AI Infrastructure - Das breitere Compute-Ökosystem
- Scaling Laws - Was TPU-Skalierung ermöglicht