Fable de Anthropic: restricciones que generan controversia entre expertos en ciberseguridad

Fable de Anthropic: restricciones que generan controversia entre expertos en ciberseguridad

Anthropic lanzó su nuevo modelo de IA, Fable, presentándolo como una versión pública y limitada de su aclamado modelo de ciberseguridad Mythos. Sin embargo, la comunidad de investigadores en seguridad cibernética ha reaccionado con críticas ante las estrictas restricciones impuestas.

¿Qué dice Fable cuando se activan sus barreras de seguridad?

Cuando un prompt activa los guardarraíles, Fable pausa la conversación y muestra el mensaje: “sus medidas de seguridad detectaron este mensaje como relacionado con ciberseguridad o temas de biología”. La reconocida investigadora de seguridad Valentina “Chompie” Palmiotti, de IBM X-Force, señaló que “Fable rechaza cualquier solicitud que pueda estar tangencialmente relacionada con ciberseguridad, incluso tareas inocuas como leer un blog”.

Reacciones de los profesionales: ¿demasiado restrictivo?

Matt Suiche, veterano en ciberseguridad y miembro del personal técnico de Tolmo, una startup de IA en ciberseguridad, explicó que “si le pides que escriba código seguro, asume que es trabajo relacionado con ciberseguridad en lugar de mejores prácticas de ingeniería de software, y obtienes una degradación”. Fable está programado para recurrir a Claude Opus 4.8 si se topa con un guardarraíl. Suiche añadió: “Parece basarse en palabras clave, por lo que cualquier término en el campo léxico de ‘ciberseguridad’ activa las barreras”.

Gráfico de las principales inversiones en ciberseguridad desde la pandemia
Las inversiones en ciberseguridad se han disparado, pero las restricciones de Fable generan fricción.

El contexto: Mythos y el Programa de Verificación Cibernética

Anthropic lanzó Mythos en abril, restringido a un número limitado de empresas en el marco del Proyecto Glasswing, un esfuerzo por asegurar software e infraestructura crítica. La semana pasada, amplió el acceso a Mythos a cientos de organizaciones en 15 países. Además, la empresa exige que los profesionales de ciberseguridad se inscriban en el Cyber Verification Program para tener menos limitaciones. OpenAI tiene un programa similar llamado Trusted Access for Cyber.

Porcentaje de sectores que usan IA para ciberseguridad
Telecomunicaciones (80%), banca (75%) y retail (68%) lideran la adopción de IA contra ciberataques.

Mientras tanto, otro investigador se quejó en X de que “incluso pedir una revisión de código” activa las barreras de Fable. Anthropic no respondió de inmediato a una solicitud de comentarios.

Las restricciones buscan limitar el riesgo de que Fable pueda usarse para desarrollar malware o comprometer software, una preocupación constante en Anthropic, así como el desarrollo de armas biológicas. El equilibrio entre seguridad y usabilidad sigue siendo un desafío para la industria.

Comparte este artículo

Otras notas de tu interés:

Negocios

Cierre Repentino del Restaurante Mr Chow en Miami Beach: Fin de una Era en South Beach

Economia

Niteshift: La startup de infraestructura de codificación AI que recauda $7 millones para ofrecer independencia de modelos

Noticia Local

La inteligencia artificial revoluciona las campañas en Florida 2028: videos generados por IA dividen a los republicanos

Espectáculos y Entretenimiento

Warner Music adquiere Sureel AI para rastrear el uso de su música en inteligencia artificial

Economia

SpaceX se prepara para su salida a bolsa: el plan de negocio que apuesta por centros de datos orbitales

Negocios

Decart lanza Oasis 3: el modelo mundial de IA que genera entornos de conducción fotorrealistas en tiempo real

Economia

Jedify recauda 24 millones de dólares para potenciar la inteligencia artificial contextual en las empresas

Politica Internacional

Bill Gates y la Sombra de Epstein: Crisis de Reputación Lleva a Cancelaciones en India

Economia

Meta y Reliance se alían para construir un centro de datos de IA de 168 MW en India

Economia

Justin Ernest: Inversión en startups sin fondo VC – El nuevo enfoque a través de SPVs