Los modelos de razonamiento avanzado muestran retroceso en precisión
Los nuevos modelos de inteligencia artificial o3 y o4-mini de OpenAI, diseñados para tareas complejas de razonamiento, están generando preocupación por su tendencia a «alucinar» con mayor frecuencia que versiones anteriores.

Datos alarmantes en pruebas internas
- o3 mostró 33% de alucinaciones en PersonQA
- o4-mini alcanzó un preocupante 48%
- Modelos anteriores como o1-mini mantenían tasas de <14.8%
Hallazgos externos reveladores
La organización Transluce documentó casos donde o3 inventaba procesos inexistentes, como ejecutar código en hardware específico. «El aprendizaje por refuerzo podría estar amplificando estos errores», señaló Neil Chowdhury, investigador de Transluce.
Impacto en aplicaciones prácticas
Kian Katanforoosh de Workera advierte:
«Aunque supera a la competencia en programación, o3 genera enlaces rotos con frecuencia»
¿Solución en el horizonte?
OpenAI explora integración con búsquedas web, demostrando 90% de precisión en GPT-4o para consultas simples. Sin embargo, esta solución requiere compartir datos con terceros.
El dilema del progreso tecnológico
Mientras la industria apuesta por modelos de razonamiento para evitar escalar recursos computacionales, el aumento de alucinaciones plantea un obstáculo crítico para aplicaciones empresariales sensibles.