El progreso acelerado de la inteligencia artificial en el ámbito profesional
Hace apenas un mes, los benchmarks que medían las capacidades de los agentes de IA en tareas profesionales como el derecho y el análisis corporativo arrojaban resultados modestos, con todas las principales empresas de investigación obteniendo puntajes inferiores al 25%.
Sin embargo, la capacidad de la inteligencia artificial puede cambiar drásticamente en cuestión de semanas.

Opus 4.6 de Anthropic sacude el panorama
El reciente lanzamiento del modelo Opus 4.6 de Anthropic ha revolucionado las clasificaciones. Este nuevo modelo logró un puntaje de 29.8% en pruebas de un solo intento y un promedio de 45% cuando se le dieron múltiples oportunidades para resolver los problemas.
El lanzamiento incluyó una serie de nuevas características agenticas, como los «enjambres de agentes» (agent swarms), que podrían haber contribuido a esta mejora en la resolución de problemas de múltiples pasos.

Una mejora «insana» en pocos meses
Este puntaje representa un avance significativo respecto al estado anterior de la técnica. Brendan Foody, CEO de Mercor, se mostró particularmente impresionado, declarando:
«Saltar del 18.4% al 29.8% en unos meses es una locura (insane)».
¿Deben preocuparse los profesionales?
Aunque el 30% aún está muy lejos del 100%, esto no significa que los abogados vayan a ser reemplazados por máquinas la próxima semana. No obstante, deberían estar mucho menos confiados de lo que estaban el mes pasado.
El rápido progreso en los modelos fundacionales muestra que la evolución de la IA no se está desacelerando, marcando un antes y un después en la evaluación de sus capacidades para tareas complejas y especializadas.
