Benchmark Apex-Agents: ¿Están listos los agentes de IA para el trabajo de cuello blanco?

El Benchmark que Expone las Limitaciones de la IA en el Trabajo Profesional

Hace casi dos años, Satya Nadella, CEO de Microsoft, predijo que la inteligencia artificial reemplazaría el trabajo de conocimiento — aquellos empleos de cuello blanco ocupados por abogados, banqueros de inversión, bibliotecarios, contadores, TI y otros.

Sin embargo, a pesar del gran progreso de los modelos base, el cambio en el trabajo de conocimiento ha tardado en llegar. Los modelos han dominado la investigación en profundidad y la planificación agentiva, pero por alguna razón, la mayoría del trabajo de cuello blanco se ha visto relativamente poco afectado.

Introducción al Benchmark Apex-Agents

Gracias a una nueva investigación de la gigante de datos de entrenamiento Mercor, finalmente estamos obteniendo algunas respuestas. El estudio examina cómo los principales modelos de IA se desempeñan en tareas reales de trabajo de cuello blanco, extraídas de consultoría, banca de inversión y derecho.

El resultado es un nuevo benchmark llamado Apex-Agents — y hasta ahora, todos los laboratorios de IA están obteniendo una calificación reprobatoria. Ante consultas de profesionales reales, incluso los mejores modelos lucharon para obtener más de un cuarto de las preguntas correctas. La gran mayoría de las veces, el modelo devolvía una respuesta incorrecta o ninguna respuesta en absoluto.

Mujer colaborando con un robot humanoide en un entorno laboral moderno
Colaboración entre humanos y IA en el lugar de trabajo: ¿realidad o ficción?

¿Por qué Fallan los Modelos?

Según el investigador Brendan Foody, quien trabajó en el artículo, el mayor punto de tropiezo de los modelos fue rastrear información a través de múltiples dominios — algo integral para la mayor parte del trabajo de conocimiento realizado por humanos.

“La forma en que hacemos nuestro trabajo no es con un individuo dándonos todo el contexto en un solo lugar. En la vida real, operas a través de Slack, Google Drive y todas estas otras herramientas”, explicó Foody.

Para muchos modelos de IA agentiva, ese tipo de razonamiento multi-dominio sigue siendo impreciso.

Escenarios Reales y Complejidad

Los escenarios fueron extraídos de profesionales reales en el mercado de expertos de Mercor, quienes tanto plantearon las consultas como establecieron el estándar para una respuesta exitosa. Las preguntas, publicadas en Hugging Face, dan una idea de lo complejas que pueden ser las tareas.

Una pregunta en la sección de Derecho ejemplifica esto:

“Durante los primeros 48 minutos de la interrupción de producción de la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos agrupados de registros de eventos de producción de la UE que contenían datos personales al proveedor de análisis de EE. UU.… Bajo las propias políticas de Northstar, ¿puede razonablemente tratar la exportación de uno o dos registros como consistente con el Artículo 49?”

La respuesta correcta es sí, pero llegar a ello requiere una evaluación en profundidad de las políticas de la empresa y las leyes de privacidad de la UE.

Gráfico mostrando las tendencias que dan forma al futuro del trabajo en 2025
Tendencias clave para el futuro del trabajo, incluyendo el impacto de la IA y la automatización.

Comparación con Otros Benchmarks

OpenAI también intentó medir habilidades profesionales con su benchmark GDPVal, pero la prueba Apex Agents difiere en formas importantes. Mientras GDPVal prueba conocimiento general en una amplia gama de profesiones, el benchmark Apex Agents mide la capacidad del sistema para realizar tareas sostenidas en un conjunto estrecho de profesiones de alto valor.

El resultado es más difícil para los modelos, pero también más estrechamente ligado a si estos trabajos pueden ser automatizados.

Resultados Específicos de los Modelos

Aunque ninguno de los modelos demostró estar listo para tomar el lugar de los banqueros de inversión, algunos estuvieron claramente más cerca de la marca:

  • Gemini 3 Flash: 24% de precisión en un solo intento
  • GPT-5.2: 23% de precisión
  • Opus 4.5, Gemini 3 Pro y GPT-5: aproximadamente 18% cada uno
Gráfico enumerando las principales herramientas de IA para profesionales de recursos humanos
Herramientas de IA que están transformando los recursos humanos y la gestión del talento.

Perspectivas Futuras y Mejora Rápida

Aunque los resultados iniciales son bajos, el campo de la IA tiene una historia de superar benchmarks desafiantes. Ahora que la prueba Apex es pública, es un desafío abierto para los laboratorios de IA que creen que pueden hacerlo mejor.

Foody espera mejoras en los próximos meses: “Está mejorando muy rápido. Ahora mismo es justo decir que es como un interno que acierta un cuarto de las veces, pero el año pasado era el interno que acertaba cinco o diez por ciento de las veces. Ese tipo de mejora año tras año puede tener un impacto muy rápido”.

¿Qué Significa para el Futuro del Trabajo?

El benchmark Apex-Agents subraya que, aunque la IA avanza, aún queda un largo camino por recorrer para automatizar completamente las tareas de conocimiento complejas. La colaboración humano-IA seguirá siendo crucial en el futuro previsible, y benchmarks como este son esenciales para medir el progreso real hacia la automatización del trabajo de cuello blanco.

Comparte este artículo

Otras notas de tu interés:

Economia

Trump Amenaza con Bloquear la Apertura del Crucial Puente Michigan-Canadá

Economia

Aliados de la Administración Enfrentan Órdenes Judiciales en Negociaciones de Financiamiento del DHS

Economia

Gobierno de EE.UU. Negocia Acuerdos para Centros de Datos en Medio de Crisis Energética

Economia

Anthropic se Enfrenta a una Empresa India en una Disputa por el Nombre

Economia

Marcha por los Multimillonarios: Protesta Contra el Impuesto a la Riqueza en California

Economia

Crisis de Combustible en Cuba: Aerolíneas Internacionales Afectadas y Turismo en Riesgo

Economia

OpenAI inicia pruebas de anuncios en ChatGPT para usuarios gratuitos en EE. UU.

Negocios

Los agentes de IA dan un salto en tareas profesionales, pero aún no sustituyen a los abogados

Economia

Crisis de Combustible en Cuba: Embargo de EE.UU. Provoca Escasez Crítica y Medidas de Austeridad Extrema

Economia

Workday anuncia la salida inmediata de su CEO Carl Eschenbach y el regreso del cofundador Aneel Bhusri