GDP val
/ˌdʒiː diː ˈpiː væl/
Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark
什么是 GDP val?
GDP val 是 OpenAI 于 2025 年末推出的 AI 评估基准,用于衡量 AI 模型在经济上有价值的现实世界知识工作任务上的表现。该名称源自国内生产总值(GDP),因为基准从对经济产出贡献最大的职业和行业中提取任务。
与测试抽象推理或标准化测试性能(模型在很大程度上已饱和人类级别分数)的传统 AI 基准不同,GDP val 专注于实际专业交付成果。
关键特征
真实工作产品:任务产生实际交付成果,如法律简报、工程蓝图、客户支持对话、护理计划、幻灯片、电子表格和多媒体。
专家评估:来自相关职业的经验丰富的专业人员盲目比较 AI 输出与人类生成的工作,不知道哪个是哪个。
全面范围:完整数据集包括跨 44 个职业的 1,300+ 个专业任务。
上下文丰富的任务:与简单提示不同,GDP val 任务包括参考文件和上下文,模拟真实工作场景。
为什么 GDP val 重要
GDP val 代表了 AI 进步衡量方式的转变。传统的 IQ 式基准已经饱和——前沿模型已经匹配或超过标准化测试中的顶级人类表现。GDP val 而是衡量:
- 经济影响:与推动 GDP 的任务直接相关
- 专业竞争:与行业专家的正面比较
- 实用价值:真实交付成果,而不是抽象问题解决
正如沃顿商学院教授 Ethan Mollick 指出的,GPT-5.2 的 71% GDP val 分数意味着该模型现在在需要 4-8 小时工作的任务上有 71% 的时间击败人类专家。
历史背景
OpenAI 于 2025 年 9 月推出了 GDP val,值得注意的是发布的结果显示 Claude 在发布时优于他们自己的最佳模型——这是关于竞争定位的罕见透明展示。
到 2025 年 12 月,GPT-5.2 在 GDP val 上达到 71%,而仅在一个月前发布的 GPT-5.1 为 39%,展示了知识工作能力的快速进步。
相关阅读
- Ethan Mollick - 经常分析 GDP val 的影响
- 企业 AI - GDP val 衡量的业务应用
- 知识工作中断 - GDP val 量化的趋势