El Benchmark que Expone las Limitaciones de la IA en el Trabajo Profesional
Hace casi dos años, Satya Nadella, CEO de Microsoft, predijo que la inteligencia artificial reemplazaría el trabajo de conocimiento — aquellos empleos de cuello blanco ocupados por abogados, banqueros de inversión, bibliotecarios, contadores, TI y otros.
Sin embargo, a pesar del gran progreso de los modelos base, el cambio en el trabajo de conocimiento ha tardado en llegar. Los modelos han dominado la investigación en profundidad y la planificación agentiva, pero por alguna razón, la mayoría del trabajo de cuello blanco se ha visto relativamente poco afectado.
Introducción al Benchmark Apex-Agents
Gracias a una nueva investigación de la gigante de datos de entrenamiento Mercor, finalmente estamos obteniendo algunas respuestas. El estudio examina cómo los principales modelos de IA se desempeñan en tareas reales de trabajo de cuello blanco, extraídas de consultoría, banca de inversión y derecho.
El resultado es un nuevo benchmark llamado Apex-Agents — y hasta ahora, todos los laboratorios de IA están obteniendo una calificación reprobatoria. Ante consultas de profesionales reales, incluso los mejores modelos lucharon para obtener más de un cuarto de las preguntas correctas. La gran mayoría de las veces, el modelo devolvía una respuesta incorrecta o ninguna respuesta en absoluto.

¿Por qué Fallan los Modelos?
Según el investigador Brendan Foody, quien trabajó en el artículo, el mayor punto de tropiezo de los modelos fue rastrear información a través de múltiples dominios — algo integral para la mayor parte del trabajo de conocimiento realizado por humanos.
“La forma en que hacemos nuestro trabajo no es con un individuo dándonos todo el contexto en un solo lugar. En la vida real, operas a través de Slack, Google Drive y todas estas otras herramientas”, explicó Foody.
Para muchos modelos de IA agentiva, ese tipo de razonamiento multi-dominio sigue siendo impreciso.
Escenarios Reales y Complejidad
Los escenarios fueron extraídos de profesionales reales en el mercado de expertos de Mercor, quienes tanto plantearon las consultas como establecieron el estándar para una respuesta exitosa. Las preguntas, publicadas en Hugging Face, dan una idea de lo complejas que pueden ser las tareas.
Una pregunta en la sección de Derecho ejemplifica esto:
“Durante los primeros 48 minutos de la interrupción de producción de la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos agrupados de registros de eventos de producción de la UE que contenían datos personales al proveedor de análisis de EE. UU.… Bajo las propias políticas de Northstar, ¿puede razonablemente tratar la exportación de uno o dos registros como consistente con el Artículo 49?”
La respuesta correcta es sí, pero llegar a ello requiere una evaluación en profundidad de las políticas de la empresa y las leyes de privacidad de la UE.

Comparación con Otros Benchmarks
OpenAI también intentó medir habilidades profesionales con su benchmark GDPVal, pero la prueba Apex Agents difiere en formas importantes. Mientras GDPVal prueba conocimiento general en una amplia gama de profesiones, el benchmark Apex Agents mide la capacidad del sistema para realizar tareas sostenidas en un conjunto estrecho de profesiones de alto valor.
El resultado es más difícil para los modelos, pero también más estrechamente ligado a si estos trabajos pueden ser automatizados.
Resultados Específicos de los Modelos
Aunque ninguno de los modelos demostró estar listo para tomar el lugar de los banqueros de inversión, algunos estuvieron claramente más cerca de la marca:
- Gemini 3 Flash: 24% de precisión en un solo intento
- GPT-5.2: 23% de precisión
- Opus 4.5, Gemini 3 Pro y GPT-5: aproximadamente 18% cada uno

Perspectivas Futuras y Mejora Rápida
Aunque los resultados iniciales son bajos, el campo de la IA tiene una historia de superar benchmarks desafiantes. Ahora que la prueba Apex es pública, es un desafío abierto para los laboratorios de IA que creen que pueden hacerlo mejor.
Foody espera mejoras en los próximos meses: “Está mejorando muy rápido. Ahora mismo es justo decir que es como un interno que acierta un cuarto de las veces, pero el año pasado era el interno que acertaba cinco o diez por ciento de las veces. Ese tipo de mejora año tras año puede tener un impacto muy rápido”.
¿Qué Significa para el Futuro del Trabajo?
El benchmark Apex-Agents subraya que, aunque la IA avanza, aún queda un largo camino por recorrer para automatizar completamente las tareas de conocimiento complejas. La colaboración humano-IA seguirá siendo crucial en el futuro previsible, y benchmarks como este son esenciales para medir el progreso real hacia la automatización del trabajo de cuello blanco.