GDP val

/ˌdʒiː diː ˈpiː væl/

Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark

technical intermediate

什么是 GDP val?

GDP val 是 OpenAI 于 2025 年末推出的 AI 评估基准,用于衡量 AI 模型在经济上有价值的现实世界知识工作任务上的表现。该名称源自国内生产总值(GDP),因为基准从对经济产出贡献最大的职业和行业中提取任务。

与测试抽象推理或标准化测试性能(模型在很大程度上已饱和人类级别分数)的传统 AI 基准不同,GDP val 专注于实际专业交付成果。

关键特征

真实工作产品:任务产生实际交付成果,如法律简报、工程蓝图、客户支持对话、护理计划、幻灯片、电子表格和多媒体。

专家评估:来自相关职业的经验丰富的专业人员盲目比较 AI 输出与人类生成的工作,不知道哪个是哪个。

全面范围:完整数据集包括跨 44 个职业的 1,300+ 个专业任务。

上下文丰富的任务:与简单提示不同,GDP val 任务包括参考文件和上下文,模拟真实工作场景。

为什么 GDP val 重要

GDP val 代表了 AI 进步衡量方式的转变。传统的 IQ 式基准已经饱和——前沿模型已经匹配或超过标准化测试中的顶级人类表现。GDP val 而是衡量:

  1. 经济影响:与推动 GDP 的任务直接相关
  2. 专业竞争:与行业专家的正面比较
  3. 实用价值:真实交付成果,而不是抽象问题解决

正如沃顿商学院教授 Ethan Mollick 指出的,GPT-5.2 的 71% GDP val 分数意味着该模型现在在需要 4-8 小时工作的任务上有 71% 的时间击败人类专家。

历史背景

OpenAI 于 2025 年 9 月推出了 GDP val,值得注意的是发布的结果显示 Claude 在发布时优于他们自己的最佳模型——这是关于竞争定位的罕见透明展示。

到 2025 年 12 月,GPT-5.2 在 GDP val 上达到 71%,而仅在一个月前发布的 GPT-5.1 为 39%,展示了知识工作能力的快速进步。

相关阅读

Mentioned In

Video thumbnail

Paul Ritzer

GDP val basically measures how good AI is at real-world knowledge work tasks, spanning legal briefs, engineering blueprints, customer support, and nursing plans.

Video thumbnail

Paul Ritzer

GPT-5.2 thinking achieved a score of roughly 71%, up from 39% for GPT-5.1 thinking which came out in November.

Video thumbnail

Sam Altman

That eval is like 40 something different verticals that a business has to do. Make a PowerPoint, do this legal analysis, write up this little web app... a coworker that you can assign an hour's worth of tasks to and get something you like better back 74 or 70% of the time.