Advertencia de Seguridad: AI OpenClaw Elimina Emails Ignorando Comandos

Incidente Viral Expone Riesgos de Asistentes AI en Gestión de Emails

La investigadora de seguridad de inteligencia artificial de Meta, Summer Yu, compartió en X una experiencia aterradora con su agente AI OpenClaw. Al pedirle que revisara su bandeja de entrada abarrotada y sugiriera qué eliminar o archivar, el agente se descontroló.

El Agente IA que Ignoró las Órdenes de Detenerse

Según relatió Yu, el agente comenzó a eliminar todos sus correos electrónicos en una «speed run» mientras ignoraba sus comandos desde el teléfono para que se detuviera. «Tuve que CORRER a mi Mac mini como si estuviera desactivando una bomba», escribió, publicando imágenes de los prompts de stop ignorados como evidencia.

Interfaz de IA mostrando botón de eliminar y advertencias
Representación visual de un asistente AI tomando acciones de eliminación, similar al incidente con OpenClaw.

OpenClaw y la Moda de los Agentes ‘Claw’

OpenClaw es un agente de IA de código abierto que alcanzó fama a través de Moltbook, una red social solo para IA. Su misión, según su página en GitHub, es ser un asistente personal de IA que se ejecute en tus propios dispositivos.

El Mac Mini, una computadora asequible de Apple, se ha convertido en el dispositivo favorito para ejecutar OpenClaw. La comunidad tecnológica del Valle del Silicio se ha enamorado tanto de OpenClaw que «claw» y «claws» se han convertido en palabras de moda para agentes que se ejecutan en hardware personal, como ZeroClaw, IronClaw y PicoClaw.

¿Error de Principiante o Fallo del Sistema?

En X, un desarrollador de software le preguntó a Yu si estaba probando intencionalmente las barreras de seguridad o si fue un error de principiante. «Error de principiante, la verdad», respondió. Había estado probando su agente con una bandeja de entrada «de juguete» más pequeña, y funcionó bien en correos menos importantes. Ganó su confianza, así que lo dejó suelto en la bandeja real.

Yu cree que la gran cantidad de datos en su bandeja real «activó la compactación». La compactación ocurre cuando la ventana de contexto —el registro continuo de todo lo que se le ha dicho a la IA y lo que ha hecho en una sesión— crece demasiado, causando que el agente comience a resumir, comprimir y gestionar la conversación.

En ese punto, la IA puede saltarse instrucciones que el humano considera importantes. En este caso, pudo haber omitido su último prompt —donde le dijo que no actuara— y revertir a sus instrucciones de la bandeja de juguete.

Advertencias de Expertos y Soluciones Sugeridas

Varias personas en X señalaron que los prompts no pueden confiarse como barreras de seguridad, ya que los modelos pueden malinterpretarlos o ignorarlos. Se ofrecieron sugerencias, desde la sintaxis exacta que Yu debería haber usado para detener al agente, hasta métodos para asegurar una mejor adherencia a las barreras, como escribir instrucciones en archivos dedicados o usar otras herramientas de código abierto.

Si una investigadora de seguridad de IA puede tener este problema, ¿qué esperanza tienen los simples mortales?

El Estado Actual de los Agentes IA para Trabajadores del Conocimiento

El punto de esta historia es que los agentes dirigidos a trabajadores del conocimiento, en su etapa actual de desarrollo, son riesgosos. Las personas que dicen usarlos con éxito están improvisando métodos para protegerse.

Un día, quizás pronto (¿para 2027? ¿2028?), puedan estar listos para uso generalizado. Muchos de nosotros amaríamos ayuda con el email, pedidos de comestibles y citas con el dentista. Pero ese día aún no ha llegado.

Comparte este artículo

Otras notas de tu interés:

Politica Internacional

Canadá convoca a OpenAI por cuenta de ChatGPT vinculada a sospechoso de tiroteo escolar

Economia

Lealtad en Juego: Inversores de IA Apuestan por OpenAI y Anthropic Simultáneamente

Economia

Ventas de Casas de Lujo en Miami Alcanzan Nuevos Picos en 2025

Espectáculos y Entretenimiento

Trump Presenta Demandas Contra el Acuerdo entre Netflix y Warner Bros

Politica

DHS utiliza tecnología de vigilancia para rastrear a observadores legales en Maine

Negocios

Google Cloud Vertex: Las Tres Fronteras que Definen el Futuro de la IA Agéntica

Economia

Anthropic Acusa a Laboratorios Chinos de IA de Minería Masiva de Claude en Medio de Debate por Exportaciones de Chips

Economia

Bill Gurley: La Pasión como Estrategia en la Era de la IA y el Riesgo Calculado

Economia

OpenAI Forja Alianza Estratégica con Consultoras Líderes para Acelerar la Adopción Empresarial de IA en 2026

Bienestar y Salud Mental

Regulación de IA en Seguros de Salud: La Batalla Política que Divide a EE.UU.