OpenAI GPT-5 se acerca al rendimiento humano en trabajos clave según nuevo benchmark

OpenAI lanza benchmark GDPval para medir el rendimiento de IA frente a profesionales humanos

Este jueves 25 de septiembre de 2025, OpenAI presentó un nuevo benchmark llamado GDPval, diseñado para evaluar cómo sus modelos de inteligencia artificial, incluido GPT-5, se comparan con profesionales humanos en una amplia gama de industrias y ocupaciones. Esta prueba es un intento inicial de entender cuán cerca están los sistemas de OpenAI de superar a los humanos en trabajos económicamente valiosos, un objetivo clave en el desarrollo de inteligencia artificial general (AGI).

Resultados clave del estudio GDPval

OpenAI afirma que su modelo GPT-5 y el Claude Opus 4.1 de Anthropic «ya se están acercando a la calidad del trabajo producido por expertos de la industria». En concreto, la versión GPT-5-high, con mayor potencia computacional, fue calificada como mejor o igual a los expertos humanos en el 40.6% de las tareas. Por su parte, Claude Opus 4.1 logró un 49%, aunque OpenAI sugiere que este alto puntaje podría deberse a su tendencia a crear gráficos atractivos más que a un rendimiento superior inherente.

Entorno industrial con integración de inteligencia artificial
La IA se integra en ambientes laborales, como fábricas, para complementar el trabajo humano.

Ámbito y limitaciones de GDPval

El benchmark GDPval se basa en nueve industrias que más contribuyen al PIB de Estados Unidos, como salud, finanzas, manufactura y gobierno, abarcando 44 ocupaciones desde ingenieros de software hasta enfermeras y periodistas. Sin embargo, OpenAI admite que esta primera versión, GDPval-v0, prueba solo un número limitado de tareas, como la creación de informes de investigación, y no refleja la totalidad de las responsabilidades laborales humanas. La compañía planea desarrollar pruebas más robustas en el futuro.

«[Debido a] que el modelo se está volviendo bueno en algunas de estas cosas, las personas en esos trabajos pueden ahora usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas potencialmente de mayor valor», explicó el economista jefe de OpenAI, Dr. Aaron Chatterji.

Progreso acelerado y comparativas con otros benchmarks

Tejal Patwardhan, líder de evaluaciones de OpenAI, destacó que el modelo GPT-4o, lanzado hace aproximadamente 15 meses, obtuvo solo un 13.7% en wins y empates frente a humanos, mientras que GPT-5 casi triplica ese resultado. Este avance rápido subraya la tendencia creciente en el rendimiento de la IA. Aunque existen otros benchmarks populares como AIME 2025 y GPQA Diamond, GDPval podría ganar importancia al medir la proficiencia de la IA en tareas del mundo real.

Trabajador usando ordenador en entorno robótico
La automatización y IA transforman espacios laborales, como en logística.

Implicaciones para el futuro del trabajo

A pesar de las predicciones de que la IA reemplazará jobs humanos en pocos años, OpenAI enfatiza que los modelos no sustituirán inmediatamente a las personas. En cambio, el enfoque está en cómo la IA puede aumentar la productividad y permitir a los trabajadores dedicarse a tareas de mayor valor. El benchmark GDPval es un paso hacia la comprensión de este impacto económico y social.

Comparte este artículo

Otras notas de tu interés:

Economia

EEUU ataca Irán en represalia por ataque a un barco

Economia

Centros de datos orbitales: ejecutivos tecnológicos cuestionan la viabilidad de la visión de Musk

Economia

Corte Suprema pone fin al TPS para haitianos: impacto devastador en Miami

Politica Internacional

Administración Trump limita el lanzamiento del último modelo de OpenAI

Politica Internacional

Corea del Norte reafirma su poderío militar con nuevas pruebas de armas

Economia

New Jersey: legisladores desvían fondos estatales a empleadores familiares y clientes

Economia

Terremoto en Venezuela: Más de 589 fallecidos, 2.980 heridos y miles de desaparecidos

Economia

Última oportunidad: Ahorra hasta $190 en el Founder Summit 2026 – Precio límite esta noche

Economia

Demócratas y el Apoyo Sindical en Pensilvania: Clave en la Elección Crucial

Economia

Control gubernamental en el lanzamiento de modelos de IA en Estados Unidos: ¿hacia una regulación sin precedentes?