La noticia reciente sobre el gusano de IA desarrollado por investigadores que se propaga automáticamente entre agentes de publicada en wired (Here Come the AI Worms). Este desarrollo es preocupante, ya que demuestra la capacidad de los gusanos informáticos de IA para adaptarse y propagarse de forma autónoma entre sistemas informáticos.
Esto representa una amenaza significativa para la ciberseguridad, ya que los gusanos de IA son más difíciles de detectar y eliminar que los gusanos convencionales. Es importante que la comunidad cibernética se prepare para afrontar esta nueva generación de amenazas y desarrolle nuevas estrategias de defensa contra los gusanos de IA.
El gusano de IA desarrollado por investigadores se propaga automáticamente entre agentes de IA
En una demostración de los riesgos inherentes a los ecosistemas de IA autónomos y conectados, un grupo de investigadores ha creado lo que afirman son los primeros gusanos generativos de IA. Estos gusanos pueden propagarse entre sistemas de IA, potencialmente robando datos o implementando malware en el proceso, lo que representa un nuevo tipo de ciberataque, según Ben Nassi, investigador de Cornell Tech.
El gusano, llamado Morris II en referencia al gusano informático original que causó estragos en Internet en 1988, fue desarrollado por Nassi junto con sus colegas Stav Cohen y Ron Bitton. A través de un prompt autorreplicativo adversario, el gusano puede instruir al modelo de IA generativa para que genere otro prompt en su respuesta, permitiendo así su replicación y propagación automática entre diferentes sistemas de IA.
El gusano de IA puede atacar a un asistente de correo electrónico de IA generativa para robar datos y enviar spam, rompiendo algunas protecciones de seguridad en sistemas como ChatGPT y Gemini.
Aunque este experimento se llevó a cabo en un entorno controlado, destaca la potencial vulnerabilidad de los modelos de IA generativos a este tipo de ataques. La creación del gusano Morris II subraya una nueva amenaza cibernética que aprovecha la interconexión y autonomía de los ecosistemas de IA, propagándose de un sistema a otro y potencialmente robando datos o implementando malware.
Las implicaciones de un gusano de este tipo son significativas y plantean riesgos importantes para las empresas que dependen de sistemas generativos de IA. La capacidad del gusano para propagarse de forma autónoma entre agentes de IA sin ser detectado desafía los paradigmas de seguridad existentes.
Expertos en seguridad, incluidos los del CISPA Helmholtz Center for Information Security, enfatizan la plausibilidad de estos ataques y la necesidad urgente de que la comunidad de desarrollo tome estas amenazas en serio.
Qué son los gusanos informáticos de IA?
Los gusanos informáticos de IA, también conocidos como «gusanos inteligentes» o «gusanos de IA», son una forma avanzada de malware que utiliza técnicas de inteligencia artificial para infectar y dañar sistemas informáticos. Algunas características de estos gusanos son:
- Autonomía: los gusanos de IA pueden tomar decisiones autónomas sobre cómo infectar y atacar un sistema, lo que los hace más versátiles y difíciles de detectar y eliminar.
- Aprendizaje automático: los gusanos de IA pueden aprender y adaptarse a medida que infectan nuevos sistemas, lo que les permite evadir las defensas cibernéticas.
- Comunicación entre pares: algunos gusanos de IA pueden comunicarse entre sí y compartir información sobre las defensas de un sistema, lo que les hace más eficaces.
- Destructividad: los gusanos de IA pueden causar daños significativos a los sistemas que infectan, incluyendo la pérdida de datos, el robo de información o la interrupción de servicios.
Desvelando las diferencias cruciales entre gusanos informáticos y gusanos de IA
En el mundo de la ciberseguridad, las diferencias entre los gusanos informáticos «normales» y los gusanos de IA son notables, destacando principalmente en su capacidad de autorreplicación, autonomía y adaptación.
Mientras que los gusanos informáticos tradicionales necesitan ser programados para atacar sistemas específicos y dependen de la interacción humana para propagarse, los gusanos de IA pueden adaptarse y difundirse de manera autónoma entre diferentes sistemas. Además, su capacidad de tomar decisiones basadas en el aprendizaje automático y la comunicación entre pares los convierte en una amenaza más eficaz y difícil de detectar.
La investigación, realizada en entornos controlados y no en un asistente de correo electrónico disponible públicamente, surge en un momento en el que los grandes modelos de lenguaje (LLM) se están volviendo cada vez más multimodales, generando no solo texto, sino también imágenes y videos.
Aunque aún no se han detectado gusanos de IA generativa en la naturaleza, varios investigadores advierten sobre el riesgo de seguridad que representan para empresas emergentes, desarrolladores y compañías de tecnología.
La mayoría de los sistemas de IA generativa operan mediante indicaciones de texto que guían a las herramientas para responder preguntas o crear contenido. Sin embargo, estas mismas indicaciones pueden convertirse en armas contra el sistema, permitiendo jailbreaks que eludan las reglas de seguridad y ataques de inyección rápida que instruyan de manera secreta a los chatbots.
Para crear el gusano generativo de IA, los investigadores emplearon el llamado «mensaje de autorreplicación adversario», induciendo al modelo generativo de IA a generar otro mensaje en su respuesta. En esencia, el sistema de inteligencia artificial produce un conjunto de instrucciones adicionales en sus respuestas, algo similar a los tradicionales ataques de inyección SQL y desbordamiento de búfer, según explican los investigadores. Para mostrar cómo puede funcionar el gusano, los investigadores crearon un sistema de correo electrónico que podía enviar y recibir mensajes utilizando IA generativa, conectándose a ChatGPT, Gemini y LLM de código abierto, LLaVA. Luego encontraron dos formas de explotar el sistema: utilizando un mensaje autorreplicante basado en texto e incrustando un mensaje autorreplicante dentro de un archivo de imagen.