OpenAI lanza benchmark GDPval para medir el rendimiento de IA frente a profesionales humanos
Este jueves 25 de septiembre de 2025, OpenAI presentó un nuevo benchmark llamado GDPval, diseñado para evaluar cómo sus modelos de inteligencia artificial, incluido GPT-5, se comparan con profesionales humanos en una amplia gama de industrias y ocupaciones. Esta prueba es un intento inicial de entender cuán cerca están los sistemas de OpenAI de superar a los humanos en trabajos económicamente valiosos, un objetivo clave en el desarrollo de inteligencia artificial general (AGI).
Resultados clave del estudio GDPval
OpenAI afirma que su modelo GPT-5 y el Claude Opus 4.1 de Anthropic «ya se están acercando a la calidad del trabajo producido por expertos de la industria». En concreto, la versión GPT-5-high, con mayor potencia computacional, fue calificada como mejor o igual a los expertos humanos en el 40.6% de las tareas. Por su parte, Claude Opus 4.1 logró un 49%, aunque OpenAI sugiere que este alto puntaje podría deberse a su tendencia a crear gráficos atractivos más que a un rendimiento superior inherente.

Ámbito y limitaciones de GDPval
El benchmark GDPval se basa en nueve industrias que más contribuyen al PIB de Estados Unidos, como salud, finanzas, manufactura y gobierno, abarcando 44 ocupaciones desde ingenieros de software hasta enfermeras y periodistas. Sin embargo, OpenAI admite que esta primera versión, GDPval-v0, prueba solo un número limitado de tareas, como la creación de informes de investigación, y no refleja la totalidad de las responsabilidades laborales humanas. La compañía planea desarrollar pruebas más robustas en el futuro.
«[Debido a] que el modelo se está volviendo bueno en algunas de estas cosas, las personas en esos trabajos pueden ahora usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas potencialmente de mayor valor», explicó el economista jefe de OpenAI, Dr. Aaron Chatterji.
Progreso acelerado y comparativas con otros benchmarks
Tejal Patwardhan, líder de evaluaciones de OpenAI, destacó que el modelo GPT-4o, lanzado hace aproximadamente 15 meses, obtuvo solo un 13.7% en wins y empates frente a humanos, mientras que GPT-5 casi triplica ese resultado. Este avance rápido subraya la tendencia creciente en el rendimiento de la IA. Aunque existen otros benchmarks populares como AIME 2025 y GPQA Diamond, GDPval podría ganar importancia al medir la proficiencia de la IA en tareas del mundo real.

Implicaciones para el futuro del trabajo
A pesar de las predicciones de que la IA reemplazará jobs humanos en pocos años, OpenAI enfatiza que los modelos no sustituirán inmediatamente a las personas. En cambio, el enfoque está en cómo la IA puede aumentar la productividad y permitir a los trabajadores dedicarse a tareas de mayor valor. El benchmark GDPval es un paso hacia la comprensión de este impacto económico y social.