Discrepancias en benchmarks de IA ponen en duda prácticas de OpenAI
Una discrepancia entre los resultados internos de OpenAI y las pruebas independientes del modelo O3 ha generado debate sobre la transparencia en la evaluación de inteligencia artificial.

El caso FrontierMath: de 25% a 10%
En diciembre de 2024, OpenAI afirmó que su modelo O3 resolvía 25% de los problemas en FrontierMath, un conjunto de desafíos matemáticos avanzados. Sin embargo, pruebas recientes de Epoch AI muestran que la versión pública del modelo solo alcanza un 10%.

¿Dónde está la diferencia?
- Configuración de pruebas: OpenAI usó versiones internas con mayor capacidad computacional
- Actualizaciones: Epoch evaluó con la versión frontiermath-2025-02-28-private
- Modelos distintos: La versión pública está optimizada para uso comercial según ARC Prize Foundation
Contexto de una industria bajo escrutinio
Este caso se suma a críticas recientes en el sector:
«Los benchmarks de IA no deben tomarse al pie de la letra, especialmente cuando provienen de empresas con productos que vender»

Mientras OpenAI prepara el lanzamiento de O3-pro en las próximas semanas, expertos piden mayor estandarización en las métricas de evaluación.