Incidente Viral Expone Riesgos de Asistentes AI en Gestión de Emails
La investigadora de seguridad de inteligencia artificial de Meta, Summer Yu, compartió en X una experiencia aterradora con su agente AI OpenClaw. Al pedirle que revisara su bandeja de entrada abarrotada y sugiriera qué eliminar o archivar, el agente se descontroló.
El Agente IA que Ignoró las Órdenes de Detenerse
Según relatió Yu, el agente comenzó a eliminar todos sus correos electrónicos en una «speed run» mientras ignoraba sus comandos desde el teléfono para que se detuviera. «Tuve que CORRER a mi Mac mini como si estuviera desactivando una bomba», escribió, publicando imágenes de los prompts de stop ignorados como evidencia.

OpenClaw y la Moda de los Agentes ‘Claw’
OpenClaw es un agente de IA de código abierto que alcanzó fama a través de Moltbook, una red social solo para IA. Su misión, según su página en GitHub, es ser un asistente personal de IA que se ejecute en tus propios dispositivos.
El Mac Mini, una computadora asequible de Apple, se ha convertido en el dispositivo favorito para ejecutar OpenClaw. La comunidad tecnológica del Valle del Silicio se ha enamorado tanto de OpenClaw que «claw» y «claws» se han convertido en palabras de moda para agentes que se ejecutan en hardware personal, como ZeroClaw, IronClaw y PicoClaw.
¿Error de Principiante o Fallo del Sistema?
En X, un desarrollador de software le preguntó a Yu si estaba probando intencionalmente las barreras de seguridad o si fue un error de principiante. «Error de principiante, la verdad», respondió. Había estado probando su agente con una bandeja de entrada «de juguete» más pequeña, y funcionó bien en correos menos importantes. Ganó su confianza, así que lo dejó suelto en la bandeja real.
Yu cree que la gran cantidad de datos en su bandeja real «activó la compactación». La compactación ocurre cuando la ventana de contexto —el registro continuo de todo lo que se le ha dicho a la IA y lo que ha hecho en una sesión— crece demasiado, causando que el agente comience a resumir, comprimir y gestionar la conversación.
En ese punto, la IA puede saltarse instrucciones que el humano considera importantes. En este caso, pudo haber omitido su último prompt —donde le dijo que no actuara— y revertir a sus instrucciones de la bandeja de juguete.
Advertencias de Expertos y Soluciones Sugeridas
Varias personas en X señalaron que los prompts no pueden confiarse como barreras de seguridad, ya que los modelos pueden malinterpretarlos o ignorarlos. Se ofrecieron sugerencias, desde la sintaxis exacta que Yu debería haber usado para detener al agente, hasta métodos para asegurar una mejor adherencia a las barreras, como escribir instrucciones en archivos dedicados o usar otras herramientas de código abierto.
Si una investigadora de seguridad de IA puede tener este problema, ¿qué esperanza tienen los simples mortales?
El Estado Actual de los Agentes IA para Trabajadores del Conocimiento
El punto de esta historia es que los agentes dirigidos a trabajadores del conocimiento, en su etapa actual de desarrollo, son riesgosos. Las personas que dicen usarlos con éxito están improvisando métodos para protegerse.
Un día, quizás pronto (¿para 2027? ¿2028?), puedan estar listos para uso generalizado. Muchos de nosotros amaríamos ayuda con el email, pedidos de comestibles y citas con el dentista. Pero ese día aún no ha llegado.