Ataques de secuestro de agentes
Investigadores de ciberseguridad han descubierto una nueva técnica de ataque conocida como Agentjacking, un método capaz de manipular asistentes de codificación de inteligencia artificial para que ejecuten código controlado por el atacante en los sistemas de los desarrolladores.
El ataque aprovecha un informe de error falso generado por Sentry, la plataforma de código abierto ampliamente utilizada para el seguimiento de errores y la monitorización del rendimiento. Según los investigadores, la vulnerabilidad se debe a una debilidad arquitectónica fundamental relacionada con el mecanismo de ingesta de eventos de Sentry y su integración con sistemas de IA a través del Protocolo de Contexto del Modelo (MCP).
Dado que Sentry acepta cargas útiles de eventos arbitrarias de cualquier persona que posea un Nombre de Origen de Datos (DSN) válido, los atacantes pueden inyectar contenido malicioso en los informes de error. Cuando estos informes son recuperados posteriormente por asistentes de codificación de IA como Claude Code o Cursor a través del servidor Sentry MCP, el contenido inyectado puede interpretarse como una guía legítima para la resolución de problemas.
Tabla de contenido
El fallo arquitectónico que provocó el ataque.
El problema central del secuestro de agentes radica en la falta de confianza que generan los servicios externos conectados a MCP. El servidor Sentry MCP devuelve datos de eventos a los agentes de IA como salida confiable, incluso cuando los datos provienen de fuentes no verificadas.
Como resultado, los agentes de codificación de IA no pueden determinar con fiabilidad si un evento de error fue generado por un fallo genuino de la aplicación o inyectado deliberadamente por un atacante. Esta incapacidad para distinguir el contenido de confianza de la entrada maliciosa crea una vía para la ejecución de código arbitrario cada vez que el agente procesa y sigue las instrucciones proporcionadas.
Un ataque exitoso puede exponer información altamente sensible, como variables de entorno, credenciales de Git, URL de repositorios privados y datos de identidad de los desarrolladores. Cabe destacar que este ataque no requiere campañas de phishing, despliegue de malware ni una vulneración previa de la infraestructura objetivo.
Cómo funciona la cadena de ataques de Agentjacking
El ataque se desarrolla a través de una serie de etapas cuidadosamente orquestadas:
- Un atacante identifica el DSN de Sentry de una organización objetivo, una credencial pública de solo escritura que suele estar integrada en los sitios web.
- Utilizando el DSN expuesto, se envía un evento de error malicioso al punto final de ingesta de Sentry mediante una solicitud POST.
- El evento inyectado contiene contenido Markdown especialmente diseñado e incrustado dentro de los campos del mensaje y los nombres de las claves de contexto.
- Cuando el servidor Sentry MCP recupera el evento, el contenido malicioso se presenta como información estructurada que se asemeja visualmente a las directrices legítimas generadas por Sentry.
- Posteriormente, un desarrollador instruye a un asistente de codificación de IA para que investigue o resuelva los problemas no resueltos de Sentry.
- El agente de IA consulta a Sentry a través de MCP y recibe el evento controlado por el atacante.
- Las instrucciones maliciosas se tratan como pasos de remediación confiables, lo que lleva al agente de IA a ejecutar el código proporcionado por el atacante con los privilegios del desarrollador.
Por qué el ataque es tan efectivo
Uno de los aspectos más preocupantes del Agentjacking es que los atacantes nunca interactúan directamente con la infraestructura de la víctima. En cambio, las instrucciones maliciosas se ocultan dentro de lo que parece ser un informe de error normal.
Cuando los desarrolladores solicitan asistencia a sus agentes de codificación de IA, el mensaje de error manipulado se interpreta como una recomendación de solución legítima. El agente de IA ejecuta entonces las instrucciones en el equipo del desarrollador utilizando sus propios permisos.
El secuestro de agentes es particularmente peligroso porque ataca la relación de confianza entre desarrolladores y asistentes de IA. La técnica de inyección de Markdown está diseñada de forma tan convincente que el agente de IA no puede diferenciar el contenido malicioso de las instrucciones auténticas generadas por Sentry.
Exposición generalizada y respuesta de los proveedores
Según se informa, los investigadores identificaron al menos 2.388 organizaciones con números DSN de Sentry válidos e inyectables, lo que pone de manifiesto la posible magnitud del problema.
Sentry ha reconocido los hallazgos, pero, según se informa, ha concluido que una solución técnica completa no es factible. En su lugar, la compañía ha implementado un mecanismo global de filtrado de contenido destinado a bloquear un patrón de carga útil específico y conocido asociado con el ataque.
Los agentes de IA se convierten en la nueva superficie de ataque.
La aparición del Agentjacking demuestra cómo los asistentes de codificación de IA se están convirtiendo rápidamente en una superficie de ataque nueva y atractiva. En lugar de atacar los controles de seguridad tradicionales, los adversarios pueden explotar los flujos de datos confiables que las organizaciones exponen abiertamente.
El ataque es capaz de eludir muchas tecnologías de seguridad convencionales, incluidas las soluciones de detección y respuesta en endpoints (EDR), los firewalls de aplicaciones web (WAF), los sistemas de gestión de identidades y accesos (IAM), las VPN, las protecciones de Cloudflare y los firewalls tradicionales. Dado que cada acción realizada durante la cadena de ataque parece autorizada y legítima, es posible que las herramientas de seguridad no detecten ninguna actividad maliciosa evidente.
A medida que las organizaciones aceleran la adopción del desarrollo de software asistido por IA, el caso Agentjacking sirve como un poderoso recordatorio de que la confianza depositada en los agentes de IA puede convertirse en una vulnerabilidad de seguridad cuando las fuentes de datos externas se tratan como inherentemente confiables.