GDP val
/ˌdʒiː diː ˈpiː væl/
Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark
Qu’est-ce que GDP val ?
GDP val est un benchmark d’évaluation d’IA introduit par OpenAI fin 2025 pour mesurer la performance des modèles d’IA sur des tâches de travail de connaissance du monde réel, économiquement précieuses. Le nom dérive du Produit Intérieur Brut (PIB), car le benchmark tire des tâches des professions et industries qui contribuent le plus à la production économique.
Contrairement aux benchmarks d’IA traditionnels qui testent le raisonnement abstrait ou les performances aux tests standardisés (où les modèles ont largement saturé les scores de niveau humain), GDP val se concentre sur les livrables professionnels pratiques.
Caractéristiques clés
Produits de travail réels : Les tâches produisent des livrables réels comme des mémoires juridiques, des plans d’ingénierie, des conversations de support client, des plans de soins infirmiers, des diapositives, des feuilles de calcul et du multimédia.
Évaluation par des experts : Des professionnels expérimentés des professions pertinentes comparent en aveugle les sorties de l’IA avec le travail généré par des humains, sans savoir lequel est lequel.
Portée complète : L’ensemble de données complet inclut plus de 1 300 tâches spécialisées à travers 44 professions.
Tâches riches en contexte : Contrairement aux prompts simples, les tâches GDP val incluent des fichiers de référence et du contexte, mimant les scénarios de travail réels.
Pourquoi GDP val est important
GDP val représente un changement dans la façon dont le progrès de l’IA est mesuré. Les benchmarks traditionnels de style QI sont devenus saturés—les modèles de pointe correspondent déjà ou dépassent les performances humaines supérieures aux tests standardisés. GDP val mesure plutôt :
- Impact économique : Connexion directe aux tâches qui génèrent du PIB
- Compétition professionnelle : Comparaison face à face avec les experts de l’industrie
- Valeur pratique : Livrables réels, pas résolution de problèmes abstraits
Comme l’a noté le professeur de Wharton Ethan Mollick, le score GDP val de 71% de GPT-5.2 signifie que le modèle bat maintenant les experts humains 71% du temps sur des tâches nécessitant 4-8 heures de travail.
Contexte historique
OpenAI a introduit GDP val en septembre 2025, publiant notamment des résultats montrant que Claude surpassait leur propre meilleur modèle au lancement—une démonstration rare de transparence sur le positionnement concurrentiel.
En décembre 2025, GPT-5.2 a atteint 71% sur GDP val, contre 39% pour GPT-5.1 sorti juste un mois auparavant, démontrant un progrès rapide sur la capacité de travail de connaissance.
Lectures connexes
- Ethan Mollick - Analyse fréquemment les implications de GDP val
- Enterprise AI - Les applications d’entreprise que GDP val mesure
- Knowledge Work Disruption - La tendance que GDP val quantifie
Mentioned In
Sam Altman
Cette évaluation est comme 40 et quelques verticales différentes qu'une entreprise doit faire. Faire un PowerPoint, faire cette analyse juridique, écrire cette petite appli web... un collègue à qui vous pouvez assigner une heure de tâches et obtenir quelque chose que vous aimez mieux 74 ou 70% du temps.