Benchmark Apex-Agents: ¿Están listos los agentes de IA para el trabajo de cuello blanco?

El Benchmark que Expone las Limitaciones de la IA en el Trabajo Profesional

Hace casi dos años, Satya Nadella, CEO de Microsoft, predijo que la inteligencia artificial reemplazaría el trabajo de conocimiento — aquellos empleos de cuello blanco ocupados por abogados, banqueros de inversión, bibliotecarios, contadores, TI y otros.

Sin embargo, a pesar del gran progreso de los modelos base, el cambio en el trabajo de conocimiento ha tardado en llegar. Los modelos han dominado la investigación en profundidad y la planificación agentiva, pero por alguna razón, la mayoría del trabajo de cuello blanco se ha visto relativamente poco afectado.

Introducción al Benchmark Apex-Agents

Gracias a una nueva investigación de la gigante de datos de entrenamiento Mercor, finalmente estamos obteniendo algunas respuestas. El estudio examina cómo los principales modelos de IA se desempeñan en tareas reales de trabajo de cuello blanco, extraídas de consultoría, banca de inversión y derecho.

El resultado es un nuevo benchmark llamado Apex-Agents — y hasta ahora, todos los laboratorios de IA están obteniendo una calificación reprobatoria. Ante consultas de profesionales reales, incluso los mejores modelos lucharon para obtener más de un cuarto de las preguntas correctas. La gran mayoría de las veces, el modelo devolvía una respuesta incorrecta o ninguna respuesta en absoluto.

Mujer colaborando con un robot humanoide en un entorno laboral moderno
Colaboración entre humanos y IA en el lugar de trabajo: ¿realidad o ficción?

¿Por qué Fallan los Modelos?

Según el investigador Brendan Foody, quien trabajó en el artículo, el mayor punto de tropiezo de los modelos fue rastrear información a través de múltiples dominios — algo integral para la mayor parte del trabajo de conocimiento realizado por humanos.

“La forma en que hacemos nuestro trabajo no es con un individuo dándonos todo el contexto en un solo lugar. En la vida real, operas a través de Slack, Google Drive y todas estas otras herramientas”, explicó Foody.

Para muchos modelos de IA agentiva, ese tipo de razonamiento multi-dominio sigue siendo impreciso.

Escenarios Reales y Complejidad

Los escenarios fueron extraídos de profesionales reales en el mercado de expertos de Mercor, quienes tanto plantearon las consultas como establecieron el estándar para una respuesta exitosa. Las preguntas, publicadas en Hugging Face, dan una idea de lo complejas que pueden ser las tareas.

Una pregunta en la sección de Derecho ejemplifica esto:

“Durante los primeros 48 minutos de la interrupción de producción de la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos agrupados de registros de eventos de producción de la UE que contenían datos personales al proveedor de análisis de EE. UU.… Bajo las propias políticas de Northstar, ¿puede razonablemente tratar la exportación de uno o dos registros como consistente con el Artículo 49?”

La respuesta correcta es sí, pero llegar a ello requiere una evaluación en profundidad de las políticas de la empresa y las leyes de privacidad de la UE.

Gráfico mostrando las tendencias que dan forma al futuro del trabajo en 2025
Tendencias clave para el futuro del trabajo, incluyendo el impacto de la IA y la automatización.

Comparación con Otros Benchmarks

OpenAI también intentó medir habilidades profesionales con su benchmark GDPVal, pero la prueba Apex Agents difiere en formas importantes. Mientras GDPVal prueba conocimiento general en una amplia gama de profesiones, el benchmark Apex Agents mide la capacidad del sistema para realizar tareas sostenidas en un conjunto estrecho de profesiones de alto valor.

El resultado es más difícil para los modelos, pero también más estrechamente ligado a si estos trabajos pueden ser automatizados.

Resultados Específicos de los Modelos

Aunque ninguno de los modelos demostró estar listo para tomar el lugar de los banqueros de inversión, algunos estuvieron claramente más cerca de la marca:

  • Gemini 3 Flash: 24% de precisión en un solo intento
  • GPT-5.2: 23% de precisión
  • Opus 4.5, Gemini 3 Pro y GPT-5: aproximadamente 18% cada uno
Gráfico enumerando las principales herramientas de IA para profesionales de recursos humanos
Herramientas de IA que están transformando los recursos humanos y la gestión del talento.

Perspectivas Futuras y Mejora Rápida

Aunque los resultados iniciales son bajos, el campo de la IA tiene una historia de superar benchmarks desafiantes. Ahora que la prueba Apex es pública, es un desafío abierto para los laboratorios de IA que creen que pueden hacerlo mejor.

Foody espera mejoras en los próximos meses: “Está mejorando muy rápido. Ahora mismo es justo decir que es como un interno que acierta un cuarto de las veces, pero el año pasado era el interno que acertaba cinco o diez por ciento de las veces. Ese tipo de mejora año tras año puede tener un impacto muy rápido”.

¿Qué Significa para el Futuro del Trabajo?

El benchmark Apex-Agents subraya que, aunque la IA avanza, aún queda un largo camino por recorrer para automatizar completamente las tareas de conocimiento complejas. La colaboración humano-IA seguirá siendo crucial en el futuro previsible, y benchmarks como este son esenciales para medir el progreso real hacia la automatización del trabajo de cuello blanco.

Comparte este artículo

Otras notas de tu interés:

Economia

EEUU ataca Irán en represalia por ataque a un barco

Economia

Centros de datos orbitales: ejecutivos tecnológicos cuestionan la viabilidad de la visión de Musk

Economia

Corte Suprema pone fin al TPS para haitianos: impacto devastador en Miami

Politica Internacional

Administración Trump limita el lanzamiento del último modelo de OpenAI

Politica Internacional

Corea del Norte reafirma su poderío militar con nuevas pruebas de armas

Economia

New Jersey: legisladores desvían fondos estatales a empleadores familiares y clientes

Economia

Terremoto en Venezuela: Más de 589 fallecidos, 2.980 heridos y miles de desaparecidos

Economia

Última oportunidad: Ahorra hasta $190 en el Founder Summit 2026 – Precio límite esta noche

Economia

Demócratas y el Apoyo Sindical en Pensilvania: Clave en la Elección Crucial

Economia

Control gubernamental en el lanzamiento de modelos de IA en Estados Unidos: ¿hacia una regulación sin precedentes?