OpenAI enfrenta críticas por falta de transparencia en puntajes de su modelo O3: ¿Qué revelan los benchmarks independientes?

Discrepancias en benchmarks de IA ponen en duda prácticas de OpenAI

Una discrepancia entre los resultados internos de OpenAI y las pruebas independientes del modelo O3 ha generado debate sobre la transparencia en la evaluación de inteligencia artificial.

Familia de modelos O3 de OpenAI

El caso FrontierMath: de 25% a 10%

En diciembre de 2024, OpenAI afirmó que su modelo O3 resolvía 25% de los problemas en FrontierMath, un conjunto de desafíos matemáticos avanzados. Sin embargo, pruebas recientes de Epoch AI muestran que la versión pública del modelo solo alcanza un 10%.

Comparación de puntajes en benchmarks

¿Dónde está la diferencia?

  • Configuración de pruebas: OpenAI usó versiones internas con mayor capacidad computacional
  • Actualizaciones: Epoch evaluó con la versión frontiermath-2025-02-28-private
  • Modelos distintos: La versión pública está optimizada para uso comercial según ARC Prize Foundation

Contexto de una industria bajo escrutinio

Este caso se suma a críticas recientes en el sector:

«Los benchmarks de IA no deben tomarse al pie de la letra, especialmente cuando provienen de empresas con productos que vender»

Ejemplos de pruebas de razonamiento de IA

Mientras OpenAI prepara el lanzamiento de O3-pro en las próximas semanas, expertos piden mayor estandarización en las métricas de evaluación.

Comparte este artículo

Otras notas de tu interés:

Economia

EEUU ataca Irán en represalia por ataque a un barco

Economia

Centros de datos orbitales: ejecutivos tecnológicos cuestionan la viabilidad de la visión de Musk

Politica Internacional

Corea del Norte reafirma su poderío militar con nuevas pruebas de armas

Economia

Corte Suprema pone fin al TPS para haitianos: impacto devastador en Miami

Politica Internacional

Administración Trump limita el lanzamiento del último modelo de OpenAI

Economia

New Jersey: legisladores desvían fondos estatales a empleadores familiares y clientes

Economia

Terremoto en Venezuela: Más de 589 fallecidos, 2.980 heridos y miles de desaparecidos

Economia

Última oportunidad: Ahorra hasta $190 en el Founder Summit 2026 – Precio límite esta noche

Economia

Demócratas y el Apoyo Sindical en Pensilvania: Clave en la Elección Crucial

Economia

Control gubernamental en el lanzamiento de modelos de IA en Estados Unidos: ¿hacia una regulación sin precedentes?