OpenAI GPT-5 se acerca al rendimiento humano en trabajos clave según nuevo benchmark

OpenAI lanza benchmark GDPval para medir el rendimiento de IA frente a profesionales humanos

Este jueves 25 de septiembre de 2025, OpenAI presentó un nuevo benchmark llamado GDPval, diseñado para evaluar cómo sus modelos de inteligencia artificial, incluido GPT-5, se comparan con profesionales humanos en una amplia gama de industrias y ocupaciones. Esta prueba es un intento inicial de entender cuán cerca están los sistemas de OpenAI de superar a los humanos en trabajos económicamente valiosos, un objetivo clave en el desarrollo de inteligencia artificial general (AGI).

Resultados clave del estudio GDPval

OpenAI afirma que su modelo GPT-5 y el Claude Opus 4.1 de Anthropic «ya se están acercando a la calidad del trabajo producido por expertos de la industria». En concreto, la versión GPT-5-high, con mayor potencia computacional, fue calificada como mejor o igual a los expertos humanos en el 40.6% de las tareas. Por su parte, Claude Opus 4.1 logró un 49%, aunque OpenAI sugiere que este alto puntaje podría deberse a su tendencia a crear gráficos atractivos más que a un rendimiento superior inherente.

Entorno industrial con integración de inteligencia artificial
La IA se integra en ambientes laborales, como fábricas, para complementar el trabajo humano.

Ámbito y limitaciones de GDPval

El benchmark GDPval se basa en nueve industrias que más contribuyen al PIB de Estados Unidos, como salud, finanzas, manufactura y gobierno, abarcando 44 ocupaciones desde ingenieros de software hasta enfermeras y periodistas. Sin embargo, OpenAI admite que esta primera versión, GDPval-v0, prueba solo un número limitado de tareas, como la creación de informes de investigación, y no refleja la totalidad de las responsabilidades laborales humanas. La compañía planea desarrollar pruebas más robustas en el futuro.

«[Debido a] que el modelo se está volviendo bueno en algunas de estas cosas, las personas en esos trabajos pueden ahora usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas potencialmente de mayor valor», explicó el economista jefe de OpenAI, Dr. Aaron Chatterji.

Progreso acelerado y comparativas con otros benchmarks

Tejal Patwardhan, líder de evaluaciones de OpenAI, destacó que el modelo GPT-4o, lanzado hace aproximadamente 15 meses, obtuvo solo un 13.7% en wins y empates frente a humanos, mientras que GPT-5 casi triplica ese resultado. Este avance rápido subraya la tendencia creciente en el rendimiento de la IA. Aunque existen otros benchmarks populares como AIME 2025 y GPQA Diamond, GDPval podría ganar importancia al medir la proficiencia de la IA en tareas del mundo real.

Trabajador usando ordenador en entorno robótico
La automatización y IA transforman espacios laborales, como en logística.

Implicaciones para el futuro del trabajo

A pesar de las predicciones de que la IA reemplazará jobs humanos en pocos años, OpenAI enfatiza que los modelos no sustituirán inmediatamente a las personas. En cambio, el enfoque está en cómo la IA puede aumentar la productividad y permitir a los trabajadores dedicarse a tareas de mayor valor. El benchmark GDPval es un paso hacia la comprensión de este impacto económico y social.

Comparte este artículo

Otras notas de tu interés:

Economia

Análisis de las Pérdidas Judiciales de los Demócratas en la Redistribución de Distritos

Economia

Demanda Colectiva Contra Spirit Airlines por Cierre Súbito que Afectó a 17,000 Empleados en Florida

Sociedad y Cultura

Campbell Brown y Forum AI: La lucha por la verdad en la era de la inteligencia artificial

Economia

Clio Alcanza $500M en ARR: La IA Impulsa el Crecimiento del Sector Legal Tech

Economia

Exdirector de hacking de L3Harris pagará $10 millones por vender herramientas a un broker ruso

Economia

Amazon Lanza ‘Amazon Now’: Entregas en 30 Minutos en Estados Unidos

Tecnologia

Google lanza ‘Create My Widget’: personaliza tu Android con inteligencia artificial

Tecnologia

Google I/O: Nuevas funciones de IA Gemini transforman Android con widgets, navegación y asistencia inteligente

Negocios

Anthropic lanza nuevas herramientas de IA para el sector legal en medio de una intensa competencia

Negocios

Google lanza Rambler: la función de dictado con IA para Gboard que desafía a las startups