OpenAI enfrenta un desafío crítico: los nuevos modelos o3 y o4-mini presentan altas tasas de alucinaciones

Los modelos de razonamiento avanzado muestran retroceso en precisión

Los nuevos modelos de inteligencia artificial o3 y o4-mini de OpenAI, diseñados para tareas complejas de razonamiento, están generando preocupación por su tendencia a «alucinar» con mayor frecuencia que versiones anteriores.

Comparativa de modelos OpenAI
Esquema comparativo de modelos de lenguaje de OpenAI (Fuente: Documentación técnica)

Datos alarmantes en pruebas internas

  • o3 mostró 33% de alucinaciones en PersonQA
  • o4-mini alcanzó un preocupante 48%
  • Modelos anteriores como o1-mini mantenían tasas de <14.8%

Hallazgos externos reveladores

La organización Transluce documentó casos donde o3 inventaba procesos inexistentes, como ejecutar código en hardware específico. «El aprendizaje por refuerzo podría estar amplificando estos errores», señaló Neil Chowdhury, investigador de Transluce.

Impacto en aplicaciones prácticas

Kian Katanforoosh de Workera advierte:

«Aunque supera a la competencia en programación, o3 genera enlaces rotos con frecuencia»

¿Solución en el horizonte?

OpenAI explora integración con búsquedas web, demostrando 90% de precisión en GPT-4o para consultas simples. Sin embargo, esta solución requiere compartir datos con terceros.

El dilema del progreso tecnológico

Mientras la industria apuesta por modelos de razonamiento para evitar escalar recursos computacionales, el aumento de alucinaciones plantea un obstáculo crítico para aplicaciones empresariales sensibles.

Comparte este artículo

Otras notas de tu interés:

Economia

El boom de la IA en Silicon Valley: una brecha de riqueza y empleo que divide a la industria

Negocios

Cierre del restaurante Blue Collar en Miami: historia y despedida de un ícono de la comida casera

Sociedad y Cultura

arXiv endurece políticas: prohibición de un año por uso descuidado de IA en artículos científicos

Politica

Sean Cairncross y el liderazgo en el control de la IA avanzada: nuevas preocupaciones cibernéticas

Economia

El auge de los centros de datos AI en South Florida: crecimiento y polémica vecinal

Negocios

Greg Brockman asume el control de la estrategia de producto en OpenAI

Politica Internacional

Estados Unidos ordena a viajeros en Air Force One desechar regalos y teléfonos tras viaje a China

Economia

Crecimiento de centros de datos para IA en South Florida: ¿Progreso tecnológico o peligro ambiental y comunitario?

Economia

Colapso de negociaciones en LIRR: Huelga amenaza el transporte en Nueva York

Politica

La Cámara de Representantes busca bloquear leyes estatales de IA en California y Nueva York