La seguridad de los navegadores impulsados por IA enfrenta una amenaza persistente
A medida que OpenAI trabaja para fortalecer su navegador de IA Atlas contra ciberataques, la empresa admite que las inyecciones de comandos, un tipo de ataque que manipula a los agentes de IA para seguir instrucciones maliciosas a menudo ocultas en páginas web o correos electrónicos, es un riesgo que no desaparecerá pronto. Esto plantea dudas sobre qué tan seguro puede ser operar con agentes de IA en la web abierta.

Un problema sin solución definitiva
En una publicación de blog del lunes, OpenAI detalló cómo está reforzando la armadura de Atlas para combatir estos ataques incesantes. La empresa escribió:
«La inyección de comandos, al igual que las estafas y la ingeniería social en la web, es poco probable que se ‘resuelva’ completamente»
. Reconoció además que el «modo agente» en ChatGPT Atlas «amplía la superficie de amenaza de seguridad».
Advertencias globales y respuestas de la industria
OpenAI no está solo en este reconocimiento. Brave publicó un análisis explicando que la inyección indirecta de comandos es un desafío sistemático para los navegadores con IA, incluido Comet de Perplexity. Por su parte, el Centro Nacional de Ciberseguridad del Reino Unido (NCSC) advirtió a principios de este mes que los ataques de inyección de comandos contra aplicaciones de IA generativa «pueden nunca ser totalmente mitigados», poniendo en riesgo de filtraciones de datos a los sitios web.
La estrategia de OpenAI: un atacante automatizado
La respuesta de OpenAI a este desafío es un ciclo proactivo de respuesta rápida. Una parte clave es su «atacante automatizado basado en LLM», un bot entrenado con aprendizaje por refuerzo para buscar formas de colar instrucciones maliciosas a un agente de IA.
«Nuestro atacante entrenado con RL puede dirigir a un agente para que ejecute flujos de trabajo dañinos sofisticados y de largo horizonte que se desarrollan a lo largo de decenas (o incluso cientos) de pasos», escribió OpenAI, señalando que observó estrategias de ataque novedosas que no aparecieron en pruebas humanas anteriores.
Recomendaciones clave para los usuarios
Para reducir el riesgo, OpenAI ofrece varias recomendaciones prácticas:
- Limitar el acceso con inicio de sesión: Reduce la exposición a datos sensibles.
- Solicitar confirmación del usuario: Antes de enviar mensajes o realizar pagos, el agente debe pedir autorización.
- Dar instrucciones específicas: En lugar de proporcionar acceso completo al correo electrónico con una orden amplia, es mejor definir tareas concretas.
La empresa advierte: «Una latitud amplia facilita que el contenido oculto o malicioso influya en el agente, incluso cuando hay salvaguardas en su lugar».
El equilibrio entre riesgo y utilidad
Rami McCarthy, investigador principal de seguridad en la firma de ciberseguridad Wiz, ofrece una perspectiva crítica. Sostiene que una forma útil de evaluar el riesgo en los sistemas de IA es la autonomía multiplicada por el acceso.
«Los navegadores agentes tienden a estar en una parte desafiante de ese espacio: autonomía moderada combinada con un acceso muy alto», dijo McCarthy. «Para la mayoría de los casos de uso cotidianos, los navegadores agentes aún no ofrecen suficiente valor para justificar su perfil de riesgo actual».
Aunque proteger a los usuarios de Atlas contra las inyecciones de comandos es una prioridad máxima para OpenAI, expertos como McCarthy invitan a considerar si el retorno de la inversión en estos navegadores riesgosos es suficiente, dado su acceso a información sensible como correos electrónicos y datos de pago.