Economia, Tecnologia

Portada » Artículos » OpenAI enfrenta críticas por falta de transparencia en puntajes de su modelo O3: ¿Qué revelan los benchmarks independientes?

OpenAI enfrenta críticas por falta de transparencia en puntajes de su modelo O3: ¿Qué revelan los benchmarks independientes?

abril 20, 2025

Discrepancias en benchmarks de IA ponen en duda prácticas de OpenAI

Una discrepancia entre los resultados internos de OpenAI y las pruebas independientes del modelo O3 ha generado debate sobre la transparencia en la evaluación de inteligencia artificial.

El caso FrontierMath: de 25% a 10%

En diciembre de 2024, OpenAI afirmó que su modelo O3 resolvía 25% de los problemas en FrontierMath, un conjunto de desafíos matemáticos avanzados. Sin embargo, pruebas recientes de Epoch AI muestran que la versión pública del modelo solo alcanza un 10%.

¿Dónde está la diferencia?

Configuración de pruebas: OpenAI usó versiones internas con mayor capacidad computacional
Actualizaciones: Epoch evaluó con la versión frontiermath-2025-02-28-private
Modelos distintos: La versión pública está optimizada para uso comercial según ARC Prize Foundation

Contexto de una industria bajo escrutinio

Este caso se suma a críticas recientes en el sector:

«Los benchmarks de IA no deben tomarse al pie de la letra, especialmente cuando provienen de empresas con productos que vender»

Mientras OpenAI prepara el lanzamiento de O3-pro en las próximas semanas, expertos piden mayor estandarización en las métricas de evaluación.

Tags Benchmarks, Inteligencia Artificial, Modelos de Lenguaje, OpenAI, transparencia

Comparte este artículo

Otras notas de tu interés:

Economia

EEUU ataca Irán en represalia por ataque a un barco

junio 28, 2026

Economia

Centros de datos orbitales: ejecutivos tecnológicos cuestionan la viabilidad de la visión de Musk

junio 28, 2026

Politica Internacional

Corea del Norte reafirma su poderío militar con nuevas pruebas de armas

junio 28, 2026

Economia

Corte Suprema pone fin al TPS para haitianos: impacto devastador en Miami

junio 28, 2026

Politica Internacional

Administración Trump limita el lanzamiento del último modelo de OpenAI

junio 28, 2026

Economia

New Jersey: legisladores desvían fondos estatales a empleadores familiares y clientes

junio 28, 2026

Economia

Terremoto en Venezuela: Más de 589 fallecidos, 2.980 heridos y miles de desaparecidos

junio 28, 2026

Economia

Última oportunidad: Ahorra hasta $190 en el Founder Summit 2026 – Precio límite esta noche

junio 28, 2026

Economia

Demócratas y el Apoyo Sindical en Pensilvania: Clave en la Elección Crucial

junio 28, 2026

Economia

Control gubernamental en el lanzamiento de modelos de IA en Estados Unidos: ¿hacia una regulación sin precedentes?

junio 28, 2026