GDP val
/ˌdʒiː diː ˈpiː væl/
Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark
Was ist GDP val?
GDP val ist ein KI-Evaluierungs-Benchmark, der Ende 2025 von OpenAI eingeführt wurde, um zu messen, wie gut KI-Modelle bei ökonomisch wertvollen, realen Wissensarbeitsaufgaben abschneiden. Der Name leitet sich vom Bruttoinlandsprodukt (GDP) ab, da der Benchmark Aufgaben aus Berufen und Branchen zieht, die am meisten zum wirtschaftlichen Output beitragen.
Im Gegensatz zu traditionellen KI-Benchmarks, die abstraktes Denken oder standardisierte Testleistung testen (wo Modelle menschliche Scores weitgehend gesättigt haben), konzentriert sich GDP val auf praktische professionelle Ergebnisse.
Hauptmerkmale
Echte Arbeitsprodukte: Aufgaben produzieren tatsächliche Ergebnisse wie Rechtsgutachten, Ingenieurzeichnungen, Kundensupport-Gespräche, Pflegepläne, Folien, Tabellen und Multimedia.
Expertenauswertung: Erfahrene Professionelle aus relevanten Berufen vergleichen blind KI-Ausgaben mit menschlich generierten Arbeiten, ohne zu wissen, welche welche ist.
Umfassender Umfang: Der vollständige Datensatz umfasst 1.300+ spezialisierte Aufgaben über 44 Berufe hinweg.
Kontextreiche Aufgaben: Im Gegensatz zu einfachen Prompts enthalten GDP val-Aufgaben Referenzdateien und Kontext, die reale Arbeitsszenarien nachahmen.
Warum GDP val wichtig ist
GDP val repräsentiert eine Verschiebung in der Messung von KI-Fortschritt. Traditionelle IQ-ähnliche Benchmarks sind gesättigt - Frontier-Modelle erreichen oder übertreffen bereits Top-Leistung bei standardisierten Tests. GDP val misst stattdessen:
- Wirtschaftliche Auswirkung: Direkte Verbindung zu Aufgaben, die GDP antreiben
- Professioneller Wettbewerb: Direkter Vergleich mit Branchenexperten
- Praktischer Wert: Echte Ergebnisse, nicht abstraktes Problemlösen
Wie Wharton-Professor Ethan Mollick bemerkte, bedeutet GPT-5.2’s 71% GDP val-Score, dass das Modell jetzt menschliche Experten 71% der Zeit bei Aufgaben schlägt, die 4-8 Stunden Arbeit erfordern.
Historischer Kontext
OpenAI führte GDP val im September 2025 ein und veröffentlichte bemerkenswert Ergebnisse, die zeigten, dass Claude ihr eigenes bestes Modell beim Launch übertraf - eine seltene Demonstration von Transparenz über Wettbewerbspositionierung.
Bis Dezember 2025 erreichte GPT-5.2 71% bei GDP val, gegenüber 39% für GPT-5.1, das nur einen Monat zuvor veröffentlicht wurde, was schnellen Fortschritt bei Wissensarbeits-Fähigkeit demonstriert.
Weiterführende Lektüre
- Ethan Mollick - Analysiert häufig GDP val-Implikationen
- Enterprise AI - Die Geschäftsanwendungen, die GDP val misst
- Knowledge Work Disruption - Der Trend, den GDP val quantifiziert