知识工作颠覆
critical Confidence: high Since 2025-09

知识工作颠覆

AI模型在专业任务上的表现已超越人类专家

laborenterprisedisruptionprofessional-services

转变

在AI进步多年来都以抽象基准和标准化测试分数来衡量之后,2025年标志着AI能力开始根据实际专业工作来衡量的时刻。结果令人震惊:前沿模型现在在大多数知识工作任务上的表现已超越人类专家。

OpenAI的GPT-5.2在GDP val上获得了71%的分数,这是一个衡量实际专业交付成果性能的基准——包括法律摘要、工程蓝图、客户支持对话、财务分析等。这意味着在盲测对比中,在通常需要4-8小时人类工作的任务上,AI输出有71%的时间击败了专家人类的工作。

主要驱动因素

1. 基准饱和

传统的AI评估(智商测试、律师资格考试、医疗执照考试)已经饱和。前沿模型已经达到或超过了顶尖人类的表现,使得这些基准对于跟踪进度的意义不大。

2. 企业需求

随着公司大量投资于AI采用,他们需要能够预测实际业务影响的指标。GDP val和类似基准直接衡量经济价值创造。

3. 速度和成本优势

GPT-5.2的产出速度快11倍,成本不到人类专家的1%。即使质量相同,经济效益也严重倾向于AI增强。

谁在说这个

Sam Altman (OpenAI):

“GPT-5.2 is the smartest generally available model in the world and in particular good at doing real world knowledge work tasks.” “GPT-5.2是世界上最智能的通用模型,特别擅长完成真实世界的知识工作任务。”

Ethan Mollick (Wharton):

“In head-to-head competition against human experts on tasks requiring four to eight hours of work, the new model is now winning 71% of the time.” “在与人类专家的正面竞争中,在需要4到8小时工作的任务上,新模型现在有71%的胜率。”

OpenAI企业研究:

Average ChatGPT Enterprise users save 40-60 minutes daily; heavy users save 10+ hours per week. “平均ChatGPT企业用户每天节省40-60分钟;重度用户每周节省10小时以上。“

影响

对于专业人士

创造价值的技能正在转变。纯粹的任务执行变得不那么有价值;编排AI、质量保证和高判断力决策变得更加关键。

对于企业

AI部署从”锦上添花”的实验转变为”必不可少”的竞争必需品。没有成熟AI工作流程的组织面临落后的风险。

对于劳动力市场

入门级知识工作面临最直接的压力,因为常规任务是首先被自动化的。中期职业专业人士面临再培训要求。

时间线

日期事件
2025-09OpenAI推出GDP val基准
2025-11GPT-5.1在GDP val上达到39%
2025-12GPT-5.2在GDP val上达到71%
2025-12OpenAI企业研究报告每天节省40-60分钟

相关阅读

Expert Mentions

Video thumbnail

Paul Ritzer

他们正在构建一个经过微调的模型来完成更多人类工作。最初几年都是关于基准测试和智商测试。现在他们已经超越了这些,开始根据实际工作来衡量。

Video thumbnail

Mike Kaput

Ethan Mollick指出,GPT-5.2在与人类专家的正面竞争中,在需要4到8小时工作的任务上,现在有71%的胜率。