GDP val
/ˌdʒiː diː ˈpiː væl/
Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark
GDP valとは何か?
GDP valは、AIモデルが経済的に価値のある現実世界の知識労働タスクでどれだけ良好に実行するかを測定するために、2025年後半にOpenAIによって導入されたAI評価ベンチマークです。名前は国内総生産(GDP)に由来し、ベンチマークが経済産出に最も貢献する職業と産業からタスクを引き出すためです。
モデルが人間レベルのスコアをほぼ飽和させた抽象的推論や標準化されたテストパフォーマンスをテストする従来のAIベンチマークとは異なり、GDP valは実践的な専門的成果物に焦点を当てています。
主要な特性
実際の作業成果物: タスクは、法律文書、エンジニアリング設計図、カスタマーサポート会話、看護計画、スライド、スプレッドシート、マルチメディアなどの実際の成果物を生成します。
専門家評価: 関連職業の経験豊富な専門家が、どちらがどちらか知らずに、AI出力と人間が生成した作業を盲目的に比較します。
包括的範囲: 完全なデータセットには、44の職業にわたる1,300以上の専門タスクが含まれています。
コンテキストリッチなタスク: 単純なプロンプトとは異なり、GDP valタスクには参照ファイルとコンテキストが含まれ、実際の作業シナリオを模倣します。
なぜGDP valが重要なのか
GDP valは、AI進歩の測定方法のシフトを表しています。従来のIQスタイルのベンチマークは飽和しています—最先端モデルは標準化されたテストで既に人間の最高パフォーマンスと一致またはそれを超えています。代わりにGDP valは測定します:
- 経済的影響: GDPを推進するタスクへの直接的な接続
- 専門的競争: 業界専門家との直接比較
- 実用的価値: 抽象的問題解決ではなく、実際の成果物
ウォートン大学のEthan Mollick教授が指摘したように、GPT-5.2の71%のGDP valスコアは、モデルが4〜8時間の作業を必要とするタスクで人間の専門家を71%の時間で上回ることを意味します。
歴史的背景
OpenAIは2025年9月にGDP valを導入し、注目すべきことに、ローンチ時に自社の最良モデルをClaudeが上回った結果を公表しました—競争的位置づけに関する透明性の稀な表示です。
2025年12月までに、GPT-5.2はGDP valで71%を達成し、わずか1ヶ月前にリリースされたGPT-5.1の39%から上昇し、知識労働能力の急速な進歩を示しました。
関連記事
- Ethan Mollick - GDP valの意味を頻繁に分析
- エンタープライズAI - GDP valが測定するビジネスアプリケーション
- 知識労働の混乱 - GDP valが定量化するトレンド