GDP val

/ˌdʒiː diː ˈpiː væl/

Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark

technical intermediate

Qu’est-ce que GDP val ?

GDP val est un benchmark d’évaluation d’IA introduit par OpenAI fin 2025 pour mesurer la performance des modèles d’IA sur des tâches de travail de connaissance du monde réel, économiquement précieuses. Le nom dérive du Produit Intérieur Brut (PIB), car le benchmark tire des tâches des professions et industries qui contribuent le plus à la production économique.

Contrairement aux benchmarks d’IA traditionnels qui testent le raisonnement abstrait ou les performances aux tests standardisés (où les modèles ont largement saturé les scores de niveau humain), GDP val se concentre sur les livrables professionnels pratiques.

Caractéristiques clés

Produits de travail réels : Les tâches produisent des livrables réels comme des mémoires juridiques, des plans d’ingénierie, des conversations de support client, des plans de soins infirmiers, des diapositives, des feuilles de calcul et du multimédia.

Évaluation par des experts : Des professionnels expérimentés des professions pertinentes comparent en aveugle les sorties de l’IA avec le travail généré par des humains, sans savoir lequel est lequel.

Portée complète : L’ensemble de données complet inclut plus de 1 300 tâches spécialisées à travers 44 professions.

Tâches riches en contexte : Contrairement aux prompts simples, les tâches GDP val incluent des fichiers de référence et du contexte, mimant les scénarios de travail réels.

Pourquoi GDP val est important

GDP val représente un changement dans la façon dont le progrès de l’IA est mesuré. Les benchmarks traditionnels de style QI sont devenus saturés—les modèles de pointe correspondent déjà ou dépassent les performances humaines supérieures aux tests standardisés. GDP val mesure plutôt :

  1. Impact économique : Connexion directe aux tâches qui génèrent du PIB
  2. Compétition professionnelle : Comparaison face à face avec les experts de l’industrie
  3. Valeur pratique : Livrables réels, pas résolution de problèmes abstraits

Comme l’a noté le professeur de Wharton Ethan Mollick, le score GDP val de 71% de GPT-5.2 signifie que le modèle bat maintenant les experts humains 71% du temps sur des tâches nécessitant 4-8 heures de travail.

Contexte historique

OpenAI a introduit GDP val en septembre 2025, publiant notamment des résultats montrant que Claude surpassait leur propre meilleur modèle au lancement—une démonstration rare de transparence sur le positionnement concurrentiel.

En décembre 2025, GPT-5.2 a atteint 71% sur GDP val, contre 39% pour GPT-5.1 sorti juste un mois auparavant, démontrant un progrès rapide sur la capacité de travail de connaissance.

Lectures connexes

Mentioned In

Video thumbnail

Paul Ritzer

GDP val mesure essentiellement à quel point l'IA est bonne aux tâches de travail de connaissance du monde réel, couvrant les mémoires juridiques, les plans d'ingénierie, le support client et les plans de soins infirmiers.

Video thumbnail

Paul Ritzer

GPT-5.2 thinking a atteint un score d'environ 71%, en hausse par rapport à 39% pour GPT-5.1 thinking sorti en novembre.

Video thumbnail

Sam Altman

Cette évaluation est comme 40 et quelques verticales différentes qu'une entreprise doit faire. Faire un PowerPoint, faire cette analyse juridique, écrire cette petite appli web... un collègue à qui vous pouvez assigner une heure de tâches et obtenir quelque chose que vous aimez mieux 74 ou 70% du temps.