GDP val

/ˌdʒiː diː ˈpiː væl/

Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark

technical intermediate

GDP valとは何か?

GDP valは、AIモデルが経済的に価値のある現実世界の知識労働タスクでどれだけ良好に実行するかを測定するために、2025年後半にOpenAIによって導入されたAI評価ベンチマークです。名前は国内総生産(GDP)に由来し、ベンチマークが経済産出に最も貢献する職業と産業からタスクを引き出すためです。

モデルが人間レベルのスコアをほぼ飽和させた抽象的推論や標準化されたテストパフォーマンスをテストする従来のAIベンチマークとは異なり、GDP valは実践的な専門的成果物に焦点を当てています。

主要な特性

実際の作業成果物: タスクは、法律文書、エンジニアリング設計図、カスタマーサポート会話、看護計画、スライド、スプレッドシート、マルチメディアなどの実際の成果物を生成します。

専門家評価: 関連職業の経験豊富な専門家が、どちらがどちらか知らずに、AI出力と人間が生成した作業を盲目的に比較します。

包括的範囲: 完全なデータセットには、44の職業にわたる1,300以上の専門タスクが含まれています。

コンテキストリッチなタスク: 単純なプロンプトとは異なり、GDP valタスクには参照ファイルとコンテキストが含まれ、実際の作業シナリオを模倣します。

なぜGDP valが重要なのか

GDP valは、AI進歩の測定方法のシフトを表しています。従来のIQスタイルのベンチマークは飽和しています—最先端モデルは標準化されたテストで既に人間の最高パフォーマンスと一致またはそれを超えています。代わりにGDP valは測定します:

  1. 経済的影響: GDPを推進するタスクへの直接的な接続
  2. 専門的競争: 業界専門家との直接比較
  3. 実用的価値: 抽象的問題解決ではなく、実際の成果物

ウォートン大学のEthan Mollick教授が指摘したように、GPT-5.2の71%のGDP valスコアは、モデルが4〜8時間の作業を必要とするタスクで人間の専門家を71%の時間で上回ることを意味します。

歴史的背景

OpenAIは2025年9月にGDP valを導入し、注目すべきことに、ローンチ時に自社の最良モデルをClaudeが上回った結果を公表しました—競争的位置づけに関する透明性の稀な表示です。

2025年12月までに、GPT-5.2はGDP valで71%を達成し、わずか1ヶ月前にリリースされたGPT-5.1の39%から上昇し、知識労働能力の急速な進歩を示しました。

関連記事

Mentioned In

Video thumbnail

Paul Ritzer

GDP val basically measures how good AI is at real-world knowledge work tasks, spanning legal briefs, engineering blueprints, customer support, and nursing plans.

Video thumbnail

Paul Ritzer

GPT-5.2 thinking achieved a score of roughly 71%, up from 39% for GPT-5.1 thinking which came out in November.

Video thumbnail

Sam Altman

That eval is like 40 something different verticals that a business has to do. Make a PowerPoint, do this legal analysis, write up this little web app... a coworker that you can assign an hour's worth of tasks to and get something you like better back 74 or 70% of the time.