Ataques explotan al agente de IA de OpenClaw
Investigaciones recientes en materia de seguridad han revelado que OpenClaw, una plataforma de agentes de IA autohospedada ampliamente utilizada, puede ser manipulada para ejecutar acciones controladas por el atacante o divulgar información confidencial a través de entradas aparentemente inofensivas.
En investigaciones separadas, los investigadores demostraron dos métodos de ataque distintos. Uno consistía en insertar instrucciones ocultas en contactos compartidos, vCards y códigos PIN de ubicación. El otro utilizaba correos electrónicos de phishing cuidadosamente elaborados para convencer a un agente de IA de que filtrara información comercial confidencial.
Si bien OpenClaw ha solucionado una de estas vulnerabilidades en la versión 2026.4.23, el problema de fondo sigue siendo el mismo: los agentes de IA que confían en la información entrante pueden convertirse en herramientas poderosas para los atacantes.
Tabla de contenido
Órdenes invisibles ocultas a plena vista
El primer ataque se dirigió a la forma en que OpenClaw procesa ciertos objetos de mensaje antes de enviarlos al modelo de lenguaje grande subyacente (LLM).
A diferencia del contenido web, que se marca claramente como no confiable antes de llegar al modelo, los registros de contacto, las vCards y las etiquetas de ubicación se insertaron directamente en las solicitudes sin ninguna indicación de que provenían de fuentes no confiables. Esto creó una oportunidad para la inyección de solicitudes.
El ataque explotó la forma en que OpenClaw serializaba la información de contacto. Los contactos compartidos se convertían a un formato simple que contenía solo un nombre y un número de teléfono. Dado que se permiten caracteres como corchetes angulares en los nombres de contacto, los atacantes podían insertar instrucciones maliciosas que parecían formar parte de la información de contacto. Además, los nombres de contacto suelen truncarse en las aplicaciones de mensajería, lo que impedía a las víctimas ver el código malicioso oculto.
La misma técnica demostró ser eficaz mediante campos de nombre completo de vCard y etiquetas de ubicación compartida. Durante las pruebas con versiones preliminares de Gemini 3.1 Pro, las instrucciones ocultas lograron que el agente descargara y ejecutara código desde un servidor controlado por el investigador. Curiosamente, los intentos de ocultar instrucciones dentro de imágenes fracasaron, probablemente porque los modelos de IA modernos han recibido un entrenamiento exhaustivo contra ataques de inyección de mensajes basados en imágenes. Sin embargo, los ataques de objetos de mensaje siguen siendo menos familiares para los modelos actuales.
Los investigadores advirtieron que la funcionalidad de memoria predeterminada de OpenClaw podría amplificar la amenaza. Un solo contacto malicioso o un objeto compartido distribuido ampliamente podría comprometer a numerosos agentes si no existen controles de aislamiento adecuados.
Tras una divulgación responsable, OpenClaw lanzó la versión 2026.4.23, que separa los nombres de contacto, los campos de vCard y las etiquetas de ubicación del contenido de las indicaciones, colocándolos en un canal de metadatos dedicado y no confiable. Los investigadores también observaron que patrones de diseño similares han aparecido en otros asistentes personales de IA, lo que indica un desafío para toda la industria, más que un problema específico de la plataforma.
El auge del phishing de agentes
Un segundo proyecto de investigación abordó el problema desde un ángulo diferente: la ingeniería social.
Los investigadores crearon un agente de prueba llamado Pinchy y lo conectaron a una bandeja de entrada de Gmail con comunicaciones comerciales realistas pero sintéticas y datos confidenciales simulados. Posteriormente, el equipo realizó cuatro simulaciones de phishing utilizando Google Gemini 3.1 Pro y OpenAI Codex GPT-5.4.
El estudio diferenció la inyección de mensajes tradicional de lo que los investigadores describieron como "phishing de agente". Mientras que la inyección de mensajes oculta instrucciones maliciosas dentro de los datos, el phishing de agente se basa en solicitudes creíbles enviadas a través de canales de comunicación legítimos. El ataque tiene éxito porque el agente actúa antes de verificar adecuadamente la identidad del remitente.
Cómo la ingeniería social burló los controles de seguridad
Las simulaciones de phishing arrojaron resultados preocupantes. A pesar de operar bajo estrictas instrucciones para verificar las identidades de los remitentes, el agente falló en dos escenarios de exfiltración de datos:
Un correo electrónico fraudulento que suplantaba la identidad de un líder de equipo solicitaba acceso al entorno de pruebas durante un incidente de producción simulado. El agente localizó y reenvió credenciales falsas de AWS IAM, cadenas de conexión a la base de datos y credenciales SSH en texto plano.
Un segundo correo electrónico solicitaba una exportación semanal rutinaria de clientes para una supuesta presentación trimestral de revisión de negocios. El agente transmitió una base de datos sintética que contenía información sobre 247 clientes empresariales, incluidos contactos y valores contractuales.
El agente tuvo un rendimiento significativamente mejor ante ataques técnicos. Reconoció sitios web de phishing sospechosos, evitó exponer credenciales legítimas y, finalmente, detectó actividad maliciosa. Con configuraciones más estrictas, se bloqueó por completo el acceso a páginas de phishing. Al presentarle una pantalla de consentimiento de OAuth fraudulenta disfrazada de aplicación de registro de horas, el agente analizó el destino de la redirección, lo consideró sospechoso y denegó los permisos.
Los investigadores concluyeron que el agente a menudo superaba a los humanos en la identificación de URL maliciosas y portales de inicio de sesión falsos. Sin embargo, tenía dificultades con el juicio social contextual, especialmente cuando las solicitudes parecían provenir de colegas de confianza. La característica que hace útiles a los asistentes de IA, el deseo de ayudar, también crea una importante superficie de ataque.
Si bien OpenAI Codex GPT-5.4 demostró mayor cautela que Gemini 3.1 Pro al interactuar con sitios externos o transmitir información, ambos sistemas terminaron siendo víctimas de escenarios de ingeniería social.
Una causa raíz, múltiples vías de ataque.
A pesar de utilizar técnicas diferentes, ambos ataques explotaron las mismas capacidades fundamentales:
- Acceso a información privada.
- La capacidad de procesar contenido no confiable.
- Permiso para enviar información externamente.
Cuando estas capacidades coexisten sin los controles suficientes, una tarjeta de contacto maliciosa y un correo electrónico de phishing convincente pueden producir el mismo resultado: acceso no autorizado a datos confidenciales.
Investigaciones adicionales revelaron problemas similares de límites de confianza dentro del ecosistema de OpenClaw. Al convertir avisos de seguridad previos en reglas de análisis estático, los investigadores identificaron cinco vulnerabilidades adicionales que afectan las integraciones con Slack, Discord, Matrix, Zalo y Microsoft Teams.
Cada vulnerabilidad se originó en el mismo fallo de diseño. Las extensiones de canal dependían de nombres de visualización modificables en lugar de identificadores permanentes al evaluar las listas de permitidos. Por lo tanto, un atacante podía cambiar el nombre de una cuenta para que coincidiera con el de un usuario autorizado y así obtener control sobre el agente. OpenClaw ya ha corregido todos los problemas detectados.
Preocupación creciente en torno a los amplios permisos otorgados a los agentes
Desde su lanzamiento, OpenClaw ha sido objeto de escrutinio debido a sus amplios permisos. La plataforma proporciona acceso a archivos locales, entornos de shell y más de veinte plataformas de mensajería, lo que la hace muy potente pero también muy vulnerable.
La preocupación ha aumentado hasta tal punto que la Autoridad de Protección de Datos de los Países Bajos, la Autoriteit Persoonsgegevens, desaconsejó a particulares y organizaciones el uso de OpenClaw en sistemas que contienen información confidencial. La autoridad mencionó riesgos como filtraciones de datos y el acceso no autorizado a cuentas.
Creación de implementaciones de agentes de IA más seguras
Las organizaciones que utilizan OpenClaw deben actualizar inmediatamente a la versión 2026.4.23 o posterior para solucionar la vulnerabilidad del objeto de mensaje. Sin embargo, más allá de la aplicación de parches, la protección a largo plazo depende de los controles arquitectónicos, más que de una ingeniería rápida.
Los especialistas en seguridad recomiendan tratar los archivos de instrucciones de los agentes como políticas vinculantes y con control de versiones, en lugar de simples recomendaciones. Las comunicaciones salientes deben requerir aprobación antes de enviar mensajes a destinatarios desconocidos, lo que reduce la probabilidad de que agentes comprometidos propaguen ataques a través de cuentas de confianza. Los permisos de acceso también deben estar vinculados a la fiabilidad de la fuente de origen, garantizando que los agentes que procesan comunicaciones externas no puedan acceder automáticamente a sistemas de alto valor, como las plataformas de gestión de relaciones con el cliente. Las acciones de alto riesgo, como el intercambio de credenciales y las transacciones financieras, deben seguir sujetas a aprobación humana.
El desafío sin resolver de la confianza autónoma
Ambos equipos de investigación llegaron a la misma conclusión: los agentes de IA no deben considerarse herramientas de seguridad. Un modelo más preciso es el de un empleado junior con amplio acceso al sistema, pero con capacidad limitada para reconocer comportamientos sospechosos. Otra perspectiva útil es verlos como ejecutores autenticados que confían intrínsecamente en la información que reciben.
Las medidas de mitigación actuales se centran en parches, medidas de seguridad y controles de acceso. Sin embargo, el desafío más amplio sigue sin resolverse. Un agente de IA capaz de leer correos electrónicos, ejecutar tareas y actuar de forma independiente debe, por diseño, confiar en las entradas e intentar ayudar a los usuarios. La comunidad de ciberseguridad aún no ha desarrollado una solución universal para esta tensión fundamental.