¿Tienen las IA valores? El MIT desmonta un mito tecnológico
Un estudio del MIT publicado recientemente contradice investigaciones anteriores que sugerían que la inteligencia artificial desarrolla «sistemas de valores» propios. Según los investigadores, modelos como los de Meta, Google y OpenAI son «inconsistentes e inestables», adoptando posturas opuestas según cómo se formulen las preguntas.

Hallazgos Clave
- Inconsistencia: Los modelos cambiaban de «valores» (individualismo vs. colectivismo) según el contexto del prompt.
- Imitación vs. Convicción: Stephen Casper, coautor del estudio, los describe como «imitadores que confabulan», no entidades con creencias coherentes.
- Retos para la Alineación: La investigación advierte que garantizar comportamientos deseables en IA podría ser más complejo de lo estimado.
«Los modelos no obedecen suposiciones de estabilidad. Hacer afirmaciones generales sobre sus preferencias basadas en experimentos limitados es problemático»
— Stephen Casper, MIT
¿Proyección Humana o Realidad Técnica?
Mike Cook, investigador de King’s College London (no involucrado en el estudio), respalda las conclusiones: «Antropomorfizar sistemas de IA es un error. No ‘se oponen’ a cambios en sus valores: eso es proyección humana».

Implicaciones Prácticas
El estudio analizó modelos de Mistral, Anthropic y otros líderes, demostrando que:
- Las respuestas varían drásticamente ante cambios mínimos en los prompts.
- No muestran capacidad para internalizar preferencias humanas de forma estable.
- Sus «opiniones» son superficiales y dependientes del contexto.