GDP val
/ˌdʒiː diː ˈpiː væl/
Also known as: GDP evaluation, GDP benchmark, knowledge work benchmark
¿Qué es GDP val?
GDP val es un benchmark de evaluación de IA introducido por OpenAI a finales de 2025 para medir qué tan bien los modelos de IA se desempeñan en tareas de trabajo de conocimiento del mundo real económicamente valiosas. El nombre deriva del Producto Interno Bruto (GDP), ya que el benchmark extrae tareas de ocupaciones e industrias que más contribuyen a la producción económica.
A diferencia de los benchmarks de IA tradicionales que prueban razonamiento abstracto o rendimiento en pruebas estandarizadas (donde los modelos han saturado en gran medida las puntuaciones de nivel humano), GDP val se enfoca en entregables profesionales prácticos.
Características Clave
Productos de Trabajo Reales: Las tareas producen entregables reales como escritos legales, planos de ingeniería, conversaciones de soporte al cliente, planes de enfermería, diapositivas, hojas de cálculo y multimedia.
Evaluación de Expertos: Profesionales experimentados de ocupaciones relevantes comparan ciegamente salidas de IA contra trabajo generado por humanos, sin saber cuál es cuál.
Alcance Completo: El conjunto de datos completo incluye más de 1,300 tareas especializadas en 44 ocupaciones.
Tareas Ricas en Contexto: A diferencia de prompts simples, las tareas de GDP val incluyen archivos de referencia y contexto, imitando escenarios de trabajo reales.
Por Qué Importa GDP val
GDP val representa un cambio en cómo se mide el progreso de IA. Los benchmarks tradicionales tipo IQ se han saturado—los modelos frontera ya igualan o exceden el rendimiento humano superior en pruebas estandarizadas. GDP val en su lugar mide:
- Impacto Económico: Conexión directa a tareas que impulsan el PIB
- Competencia Profesional: Comparación directa con expertos de la industria
- Valor Práctico: Entregables reales, no resolución de problemas abstractos
Como señaló el profesor de Wharton Ethan Mollick, la puntuación del 71% de GPT-5.2 en GDP val significa que el modelo ahora supera a los expertos humanos el 71% del tiempo en tareas que requieren 4-8 horas de trabajo.
Contexto Histórico
OpenAI introdujo GDP val en septiembre de 2025, publicando notablemente resultados que mostraban que Claude superaba a su propio mejor modelo en el lanzamiento—una rara muestra de transparencia sobre el posicionamiento competitivo.
Para diciembre de 2025, GPT-5.2 alcanzó el 71% en GDP val, frente al 39% de GPT-5.1 lanzado solo un mes antes, demostrando un rápido progreso en capacidad de trabajo de conocimiento.
Lecturas Relacionadas
- Ethan Mollick - Frecuentemente analiza las implicaciones de GDP val
- IA Empresarial - Las aplicaciones empresariales que GDP val mide
- Disrupción del Trabajo del Conocimiento - La tendencia que GDP val cuantifica