GDP val

/ˌdʒiː diː ˈpiː væl/

Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark

technical intermediate

Co je GDP val?

GDP val je AI evaluační benchmark představený OpenAI koncem roku 2025 k měření toho, jak dobře AI modely zvládají ekonomicky cenné, reálné úlohy znalostní práce. Název pochází z Hrubého domácího produktu (HDP), protože benchmark čerpá úkoly z povolání a odvětví, která nejvíce přispívají k ekonomickému výstupu.

Na rozdíl od tradičních AI benchmarků, které testují abstraktní uvažování nebo výkon ve standardizovaných testech (kde modely z velké části nasytily výkon na lidské úrovni), GDP val se zaměřuje na praktické profesionální výstupy.

Klíčové charakteristiky

Reálné pracovní produkty: Úkoly produkují skutečné výstupy jako právní dokumenty, inženýrské plány, konverzace zákaznické podpory, ošetřovatelské plány, prezentace, tabulky a multimédia.

Evaluace experty: Zkušení profesionálové z relevantních povolání slepě porovnávají AI výstupy s prací vytvořenou lidmi, nevědí, která je která.

Komplexní rozsah: Celý dataset zahrnuje 1 300+ specializovaných úkolů napříč 44 povoláními.

Kontextově bohaté úkoly: Na rozdíl od jednoduchých promptů zahrnují úkoly GDP val referenční soubory a kontext, napodobující reálné pracovní scénáře.

Proč záleží na GDP val

GDP val představuje posun v tom, jak se měří pokrok AI. Tradiční benchmarky stylu IQ se staly nasycenými—frontální modely již odpovídají nebo převyšují špičkový lidský výkon ve standardizovaných testech. GDP val místo toho měří:

  1. Ekonomický dopad: Přímé propojení s úkoly, které řídí HDP
  2. Profesionální konkurence: Přímé porovnání s průmyslovými experty
  3. Praktická hodnota: Reálné výstupy, ne abstraktní řešení problémů

Jak poznamenal profesor Wharton Ethan Mollick, 71% skóre GPT-5.2 na GDP val znamená, že model nyní poráží lidské experty v 71 % případů na úkolech vyžadujících 4-8 hodin práce.

Historický kontext

OpenAI představil GDP val v září 2025, významně publikoval výsledky ukazující, že Claude překonal jejich vlastní nejlepší model při spuštění—vzácný projev transparentnosti ohledně konkurenčního postavení.

V prosinci 2025 GPT-5.2 dosáhlo 71 % na GDP val, oproti 39 % pro GPT-5.1 vydané jen o měsíc dříve, demonstrující rychlý pokrok ve schopnosti znalostní práce.

Související čtení

Mentioned In

Video thumbnail

Paul Ritzer

GDP val basically measures how good AI is at real-world knowledge work tasks, spanning legal briefs, engineering blueprints, customer support, and nursing plans.

Video thumbnail

Paul Ritzer

GPT-5.2 thinking achieved a score of roughly 71%, up from 39% for GPT-5.1 thinking which came out in November.

Video thumbnail

Sam Altman

That eval is like 40 something different verticals that a business has to do. Make a PowerPoint, do this legal analysis, write up this little web app... a coworker that you can assign an hour's worth of tasks to and get something you like better back 74 or 70% of the time.