OpenAI enfrenta un desafío crítico: los nuevos modelos o3 y o4-mini presentan altas tasas de alucinaciones

Los modelos de razonamiento avanzado muestran retroceso en precisión

Los nuevos modelos de inteligencia artificial o3 y o4-mini de OpenAI, diseñados para tareas complejas de razonamiento, están generando preocupación por su tendencia a «alucinar» con mayor frecuencia que versiones anteriores.

Comparativa de modelos OpenAI
Esquema comparativo de modelos de lenguaje de OpenAI (Fuente: Documentación técnica)

Datos alarmantes en pruebas internas

  • o3 mostró 33% de alucinaciones en PersonQA
  • o4-mini alcanzó un preocupante 48%
  • Modelos anteriores como o1-mini mantenían tasas de <14.8%

Hallazgos externos reveladores

La organización Transluce documentó casos donde o3 inventaba procesos inexistentes, como ejecutar código en hardware específico. «El aprendizaje por refuerzo podría estar amplificando estos errores», señaló Neil Chowdhury, investigador de Transluce.

Impacto en aplicaciones prácticas

Kian Katanforoosh de Workera advierte:

«Aunque supera a la competencia en programación, o3 genera enlaces rotos con frecuencia»

¿Solución en el horizonte?

OpenAI explora integración con búsquedas web, demostrando 90% de precisión en GPT-4o para consultas simples. Sin embargo, esta solución requiere compartir datos con terceros.

El dilema del progreso tecnológico

Mientras la industria apuesta por modelos de razonamiento para evitar escalar recursos computacionales, el aumento de alucinaciones plantea un obstáculo crítico para aplicaciones empresariales sensibles.

Comparte este artículo

Otras notas de tu interés:

Economia

Ciberataque a Mercor: Startup de IA comprometida en ataque de cadena de suministro del proyecto LiteLLM

Tecnologia

Google ahora permite a usuarios en EE. UU. cambiar su dirección de Gmail sin perder datos

Negocios

Anthropic, la ‘cuidadosa’ empresa de IA, sufre dos filtraciones de seguridad en una semana

Negocios

Salesforce revoluciona Slack con una oleada de funciones de IA para automatizar el trabajo

Economia

Salesforce Revoluciona Slack con 30 Nuevas Funciones de IA para la Empresa

Economia

OpenAI recauda $122 mil millones en ronda récord con inversores minoristas e institucionales

Economia

Yupp cierra sus puertas tras recaudar 33 millones de dólares de a16z y otros inversores

Economia

Explosión del Megarocket de Musk Amenaza Inversión Espacial de 8 Mil Millones de Dólares

Negocios

Alexa Plus revoluciona los pedidos de comida con experiencias conversacionales en Uber Eats y Grubhub

Negocios

IA y Precisión Digital: Claves para el Reacondicionamiento de Propiedades Contaminadas