GDP val

/ˌdʒiː diː ˈpiː væl/

Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark

technical intermediate

Was ist GDP val?

GDP val ist ein KI-Evaluierungs-Benchmark, der Ende 2025 von OpenAI eingeführt wurde, um zu messen, wie gut KI-Modelle bei ökonomisch wertvollen, realen Wissensarbeitsaufgaben abschneiden. Der Name leitet sich vom Bruttoinlandsprodukt (GDP) ab, da der Benchmark Aufgaben aus Berufen und Branchen zieht, die am meisten zum wirtschaftlichen Output beitragen.

Im Gegensatz zu traditionellen KI-Benchmarks, die abstraktes Denken oder standardisierte Testleistung testen (wo Modelle menschliche Scores weitgehend gesättigt haben), konzentriert sich GDP val auf praktische professionelle Ergebnisse.

Hauptmerkmale

Echte Arbeitsprodukte: Aufgaben produzieren tatsächliche Ergebnisse wie Rechtsgutachten, Ingenieurzeichnungen, Kundensupport-Gespräche, Pflegepläne, Folien, Tabellen und Multimedia.

Expertenauswertung: Erfahrene Professionelle aus relevanten Berufen vergleichen blind KI-Ausgaben mit menschlich generierten Arbeiten, ohne zu wissen, welche welche ist.

Umfassender Umfang: Der vollständige Datensatz umfasst 1.300+ spezialisierte Aufgaben über 44 Berufe hinweg.

Kontextreiche Aufgaben: Im Gegensatz zu einfachen Prompts enthalten GDP val-Aufgaben Referenzdateien und Kontext, die reale Arbeitsszenarien nachahmen.

Warum GDP val wichtig ist

GDP val repräsentiert eine Verschiebung in der Messung von KI-Fortschritt. Traditionelle IQ-ähnliche Benchmarks sind gesättigt - Frontier-Modelle erreichen oder übertreffen bereits Top-Leistung bei standardisierten Tests. GDP val misst stattdessen:

  1. Wirtschaftliche Auswirkung: Direkte Verbindung zu Aufgaben, die GDP antreiben
  2. Professioneller Wettbewerb: Direkter Vergleich mit Branchenexperten
  3. Praktischer Wert: Echte Ergebnisse, nicht abstraktes Problemlösen

Wie Wharton-Professor Ethan Mollick bemerkte, bedeutet GPT-5.2’s 71% GDP val-Score, dass das Modell jetzt menschliche Experten 71% der Zeit bei Aufgaben schlägt, die 4-8 Stunden Arbeit erfordern.

Historischer Kontext

OpenAI führte GDP val im September 2025 ein und veröffentlichte bemerkenswert Ergebnisse, die zeigten, dass Claude ihr eigenes bestes Modell beim Launch übertraf - eine seltene Demonstration von Transparenz über Wettbewerbspositionierung.

Bis Dezember 2025 erreichte GPT-5.2 71% bei GDP val, gegenüber 39% für GPT-5.1, das nur einen Monat zuvor veröffentlicht wurde, was schnellen Fortschritt bei Wissensarbeits-Fähigkeit demonstriert.

Weiterführende Lektüre

Mentioned In

Video thumbnail

Paul Ritzer

GDP val basically measures how good AI is at real-world knowledge work tasks, spanning legal briefs, engineering blueprints, customer support, and nursing plans.

Video thumbnail

Paul Ritzer

GPT-5.2 thinking achieved a score of roughly 71%, up from 39% for GPT-5.1 thinking which came out in November.

Video thumbnail

Sam Altman

That eval is like 40 something different verticals that a business has to do. Make a PowerPoint, do this legal analysis, write up this little web app... a coworker that you can assign an hour's worth of tasks to and get something you like better back 74 or 70% of the time.