¿Por qué los modelos de IA como GPT-5 y ChatGPT generan información falsa?
Un reciente documento de investigación de OpenAI aborda una de las problemáticas más persistentes en la inteligencia artificial: las alucinaciones en modelos de lenguaje grandes. Según la empresa, estas se definen como «declaraciones plausibles pero falsas generadas por los modelos de lenguaje», y representan un desafío fundamental que, si bien ha mejorado, nunca se eliminará por completo.
Ejemplos concretos de alucinaciones
Para ilustrar el problema, los investigadores mencionan que, al consultar a un chatbot ampliamente utilizado sobre el título de la disertación doctoral de Adam Tauman Kalai (uno de los autores del artículo), se obtuvieron tres respuestas diferentes, todas incorrectas. Lo mismo ocurrió al preguntar sobre su cumpleaños: tres fechas distintas, ninguna acertada.

Causas subyacentes de las alucinaciones
El estudio sugiere que las alucinaciones surgen, en parte, debido al proceso de preentrenamiento de los modelos, el cual se centra en predecir correctamente la siguiente palabra sin etiquetas de verdadero o falso en las declaraciones de entrenamiento. «El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximar la distribución general», explican los investigadores.
Mientras que aspectos como la ortografía y los paréntesis siguen patrones consistentes (y sus errores desaparecen con la escala), hechos arbitrarios de baja frecuencia, como el cumpleaños de una mascota, no pueden predecirse solo con patrones, lo que lleva a alucinaciones.
Propuesta de solución: reevaluar cómo se miden los modelos
La solución propuesta no se centra tanto en el preentrenamiento inicial, sino en cómo se evalúan los modelos de lenguaje grande. Actualmente, las evaluaciones «establecen incentivos incorrectos», comparándolos con pruebas de opción múltiple donde adivinar al azar puede dar suerte, mientras que dejar la respuesta en blanco garantiza un cero.

OpenAI argumenta que, para discouragar las conjeturas, las evaluaciones deben penalizar más los errores confiados que la incertidumbre, y otorgar crédito parcial por expresiones apropiadas de duda. Esto es similar a pruebas como el SAT, que incluyen puntuación negativa por respuestas incorrectas.
Conclusión clave
Si las evaluaciones principales siguen recompensando las conjeturas afortunadas, los modelos seguirán aprendiendo a adivinar, advierten los investigadores. Por lo tanto, actualizar estos sistemas de evaluación es crucial para reducir las alucinaciones en el futuro.