Fable de Anthropic: restricciones que generan controversia entre expertos en ciberseguridad
Anthropic lanzó su nuevo modelo de IA, Fable, presentándolo como una versión pública y limitada de su aclamado modelo de ciberseguridad Mythos. Sin embargo, la comunidad de investigadores en seguridad cibernética ha reaccionado con críticas ante las estrictas restricciones impuestas.
¿Qué dice Fable cuando se activan sus barreras de seguridad?
Cuando un prompt activa los guardarraíles, Fable pausa la conversación y muestra el mensaje: “sus medidas de seguridad detectaron este mensaje como relacionado con ciberseguridad o temas de biología”. La reconocida investigadora de seguridad Valentina “Chompie” Palmiotti, de IBM X-Force, señaló que “Fable rechaza cualquier solicitud que pueda estar tangencialmente relacionada con ciberseguridad, incluso tareas inocuas como leer un blog”.
Reacciones de los profesionales: ¿demasiado restrictivo?
Matt Suiche, veterano en ciberseguridad y miembro del personal técnico de Tolmo, una startup de IA en ciberseguridad, explicó que “si le pides que escriba código seguro, asume que es trabajo relacionado con ciberseguridad en lugar de mejores prácticas de ingeniería de software, y obtienes una degradación”. Fable está programado para recurrir a Claude Opus 4.8 si se topa con un guardarraíl. Suiche añadió: “Parece basarse en palabras clave, por lo que cualquier término en el campo léxico de ‘ciberseguridad’ activa las barreras”.

El contexto: Mythos y el Programa de Verificación Cibernética
Anthropic lanzó Mythos en abril, restringido a un número limitado de empresas en el marco del Proyecto Glasswing, un esfuerzo por asegurar software e infraestructura crítica. La semana pasada, amplió el acceso a Mythos a cientos de organizaciones en 15 países. Además, la empresa exige que los profesionales de ciberseguridad se inscriban en el Cyber Verification Program para tener menos limitaciones. OpenAI tiene un programa similar llamado Trusted Access for Cyber.

Mientras tanto, otro investigador se quejó en X de que “incluso pedir una revisión de código” activa las barreras de Fable. Anthropic no respondió de inmediato a una solicitud de comentarios.
Las restricciones buscan limitar el riesgo de que Fable pueda usarse para desarrollar malware o comprometer software, una preocupación constante en Anthropic, así como el desarrollo de armas biológicas. El equilibrio entre seguridad y usabilidad sigue siendo un desafío para la industria.