Economia, Negocios, Tecnologia

Portada » Artículos » OpenAI GPT-5 se acerca al rendimiento humano en trabajos clave según nuevo benchmark

OpenAI GPT-5 se acerca al rendimiento humano en trabajos clave según nuevo benchmark

septiembre 25, 2025

OpenAI lanza benchmark GDPval para medir el rendimiento de IA frente a profesionales humanos

Este jueves 25 de septiembre de 2025, OpenAI presentó un nuevo benchmark llamado GDPval, diseñado para evaluar cómo sus modelos de inteligencia artificial, incluido GPT-5, se comparan con profesionales humanos en una amplia gama de industrias y ocupaciones. Esta prueba es un intento inicial de entender cuán cerca están los sistemas de OpenAI de superar a los humanos en trabajos económicamente valiosos, un objetivo clave en el desarrollo de inteligencia artificial general (AGI).

Resultados clave del estudio GDPval

OpenAI afirma que su modelo GPT-5 y el Claude Opus 4.1 de Anthropic «ya se están acercando a la calidad del trabajo producido por expertos de la industria». En concreto, la versión GPT-5-high, con mayor potencia computacional, fue calificada como mejor o igual a los expertos humanos en el 40.6% de las tareas. Por su parte, Claude Opus 4.1 logró un 49%, aunque OpenAI sugiere que este alto puntaje podría deberse a su tendencia a crear gráficos atractivos más que a un rendimiento superior inherente.

La IA se integra en ambientes laborales, como fábricas, para complementar el trabajo humano.

Ámbito y limitaciones de GDPval

El benchmark GDPval se basa en nueve industrias que más contribuyen al PIB de Estados Unidos, como salud, finanzas, manufactura y gobierno, abarcando 44 ocupaciones desde ingenieros de software hasta enfermeras y periodistas. Sin embargo, OpenAI admite que esta primera versión, GDPval-v0, prueba solo un número limitado de tareas, como la creación de informes de investigación, y no refleja la totalidad de las responsabilidades laborales humanas. La compañía planea desarrollar pruebas más robustas en el futuro.

«[Debido a] que el modelo se está volviendo bueno en algunas de estas cosas, las personas en esos trabajos pueden ahora usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas potencialmente de mayor valor», explicó el economista jefe de OpenAI, Dr. Aaron Chatterji.

Progreso acelerado y comparativas con otros benchmarks

Tejal Patwardhan, líder de evaluaciones de OpenAI, destacó que el modelo GPT-4o, lanzado hace aproximadamente 15 meses, obtuvo solo un 13.7% en wins y empates frente a humanos, mientras que GPT-5 casi triplica ese resultado. Este avance rápido subraya la tendencia creciente en el rendimiento de la IA. Aunque existen otros benchmarks populares como AIME 2025 y GPQA Diamond, GDPval podría ganar importancia al medir la proficiencia de la IA en tareas del mundo real.

La automatización y IA transforman espacios laborales, como en logística.

Implicaciones para el futuro del trabajo

A pesar de las predicciones de que la IA reemplazará jobs humanos en pocos años, OpenAI enfatiza que los modelos no sustituirán inmediatamente a las personas. En cambio, el enfoque está en cómo la IA puede aumentar la productividad y permitir a los trabajadores dedicarse a tareas de mayor valor. El benchmark GDPval es un paso hacia la comprensión de este impacto económico y social.

Tags benchmark, GDPval, GPT-5, Inteligencia Artificial, OpenAI, rendimiento humano, Trabajo

Comparte este artículo

Otras notas de tu interés:

Tecnologia

Filtración de Herramientas de Hacking Coruna y DarkSword Amenaza a Millones de iPhones

marzo 28, 2026

Economia

Inteligencia Artificial Domina el Demo Day de Y Combinator W26 2024

marzo 28, 2026

Espectáculos y Entretenimiento

Bluesky lanza Attie: un asistente de IA para diseñar tus propios algoritmos sociales

marzo 28, 2026

Bienestar y Salud Mental

Estudio de Stanford revela los peligros ocultos de buscar consejos personales en chatbots de IA

marzo 28, 2026

Economia

Acuerdo Nexstar-Tegna en Suspenso por Orden Judicial Temporal

marzo 28, 2026

Economia

Los Dos Últimos Cofundadores de xAI Abandonan la Empresa de IA de Elon Musk

marzo 28, 2026

Economia

Caída en viajes aéreos en Estados Unidos: baja demanda afecta aeropuertos

marzo 28, 2026

Economia

Claude de Anthropic atrae a consumidores: Crecimiento récord en suscripciones pagadas

marzo 28, 2026

Economia

Physical Intelligence Negocia $1.000 Millones para Revolucionar la Robótica con IA

marzo 28, 2026

Negocios

Whoop: El Wearable que Evoluciona de Herramienta Deportiva a Guardián de la Salud

marzo 28, 2026