OpenAI GPT-5 se acerca al rendimiento humano en trabajos clave según nuevo benchmark

OpenAI lanza benchmark GDPval para medir el rendimiento de IA frente a profesionales humanos

Este jueves 25 de septiembre de 2025, OpenAI presentó un nuevo benchmark llamado GDPval, diseñado para evaluar cómo sus modelos de inteligencia artificial, incluido GPT-5, se comparan con profesionales humanos en una amplia gama de industrias y ocupaciones. Esta prueba es un intento inicial de entender cuán cerca están los sistemas de OpenAI de superar a los humanos en trabajos económicamente valiosos, un objetivo clave en el desarrollo de inteligencia artificial general (AGI).

Resultados clave del estudio GDPval

OpenAI afirma que su modelo GPT-5 y el Claude Opus 4.1 de Anthropic «ya se están acercando a la calidad del trabajo producido por expertos de la industria». En concreto, la versión GPT-5-high, con mayor potencia computacional, fue calificada como mejor o igual a los expertos humanos en el 40.6% de las tareas. Por su parte, Claude Opus 4.1 logró un 49%, aunque OpenAI sugiere que este alto puntaje podría deberse a su tendencia a crear gráficos atractivos más que a un rendimiento superior inherente.

Entorno industrial con integración de inteligencia artificial
La IA se integra en ambientes laborales, como fábricas, para complementar el trabajo humano.

Ámbito y limitaciones de GDPval

El benchmark GDPval se basa en nueve industrias que más contribuyen al PIB de Estados Unidos, como salud, finanzas, manufactura y gobierno, abarcando 44 ocupaciones desde ingenieros de software hasta enfermeras y periodistas. Sin embargo, OpenAI admite que esta primera versión, GDPval-v0, prueba solo un número limitado de tareas, como la creación de informes de investigación, y no refleja la totalidad de las responsabilidades laborales humanas. La compañía planea desarrollar pruebas más robustas en el futuro.

«[Debido a] que el modelo se está volviendo bueno en algunas de estas cosas, las personas en esos trabajos pueden ahora usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas potencialmente de mayor valor», explicó el economista jefe de OpenAI, Dr. Aaron Chatterji.

Progreso acelerado y comparativas con otros benchmarks

Tejal Patwardhan, líder de evaluaciones de OpenAI, destacó que el modelo GPT-4o, lanzado hace aproximadamente 15 meses, obtuvo solo un 13.7% en wins y empates frente a humanos, mientras que GPT-5 casi triplica ese resultado. Este avance rápido subraya la tendencia creciente en el rendimiento de la IA. Aunque existen otros benchmarks populares como AIME 2025 y GPQA Diamond, GDPval podría ganar importancia al medir la proficiencia de la IA en tareas del mundo real.

Trabajador usando ordenador en entorno robótico
La automatización y IA transforman espacios laborales, como en logística.

Implicaciones para el futuro del trabajo

A pesar de las predicciones de que la IA reemplazará jobs humanos en pocos años, OpenAI enfatiza que los modelos no sustituirán inmediatamente a las personas. En cambio, el enfoque está en cómo la IA puede aumentar la productividad y permitir a los trabajadores dedicarse a tareas de mayor valor. El benchmark GDPval es un paso hacia la comprensión de este impacto económico y social.

Comparte este artículo

Otras notas de tu interés:

Politica Internacional

Trump envía al Senado la nominación de Joshua Rudd para el Comando Cibernético de la NSA

Bienestar y Salud Mental

Leona Health: La startup que revoluciona la comunicación médica en Latinoamérica con IA y $14M en financiación

Negocios

OpenAI Lanza GPT Image 1.5: Más Rápido y Preciso en la Competencia contra Google Gemini

Tecnologia

Meta actualiza sus gafas AI con nuevas funciones para escuchar conversaciones e integrar música

Negocios

DoorDash Lanza Zesty: La App Social con IA que Revoluciona el Descubrimiento de Restaurantes

Negocios

Google lanza CC: su nuevo asistente de productividad basado en email con IA Gemini

Economia

Evolución de Costos del Seguro contra Inundaciones: Florida Contrae la Tendencia Nacional de Cancelaciones

Negocios

Adobe Firefly revoluciona la edición de video con prompts e integración de modelos de IA de terceros

Economia

Databricks Recauda Más de $4 Mil Millones en Ronda Serie L y Alcanza Valuación de $134 Mil Millones

Negocios

Everbloom AI: La revolución sostenible que transforma residuos de plumas en fibra de lujo