Un equipo de expertos del centro de investigación Cornell Tech desarrolló un gusano informático de inteligencia artificial generativa capaz de propagarse de un sistema a otro y potencialmente robar datos o instalar programas maliciosos en el proceso.
Llamado Morris II, plantea nuevos desafíos para la seguridad en el ámbito de modelos como ChatGPT de OpenAI y Gemini de Google, debido a que puede atacar a un asistente de correo electrónico de IA para sustraer datos de correos electrónicos y enviar mensajes de spam.
Recordemos que un gusano informático es un programa malicioso que puede replicarse sin la activación de sus huéspedes y se reproduce a sí mismo mientras se propaga a tantos ordenadores como sea posible. Este software maligno suele utilizar una red informática para propagarse, aprovechando las fallas de seguridad para acceder a ella.
Cómo crearon al gusano que se propaga entre asistentes de IA
Morris II fue creado por los investigadores Ben Nassi, Stav Cohen y Ron Bitton, y su alcance fue analizado en entornos de prueba. Además, su nombre se inspira en el gusano informático Morris que fue considerado como el primer malware de la historia y que causó estragos en 1988.
Los investigadores hicieron uso de lo que denominan un “mensaje de autorreplicación adversario”, un comando que induce al modelo de IA a generar en sus respuestas otros mensajes con el potencial de ejecutar acciones maliciosas. Algo que recuerda a los tipos de ataque como la inyección SQL (infiltración de código intruso) y el desbordamiento de búfer.
El gusano fue probado exitosamente en un sistema de correo electrónico experimental vinculado a ChatGPT, Gemini y el LLM de código abierto LLaVA, exponiendo vulnerabilidades críticas cuando el sistema procesaba tanto texto como imágenes incrustadas con mensajes maliciosos.
Cómo se perpetraron los ataques
La investigación planteó un escenario en el cual, mediante la inserción estratégica de textos ocultos o imágenes, un atacante podría comprometer modelos basados en aprendizaje automático para obligarlos a actuar en contra de sus protocolos de seguridad previstos y ejecutar acciones no autorizadas, como la sustracción de información confidencial.
La primera estrategia de ataque detallada implicó el uso de generación de recuperación aumentada (RAG), una tecnología que permite a los modelos lingüísticos grandes (LLM) obtener datos adicionales desde fuentes externas.
Los expertos encontraron que al “envenenar” la base de datos de un asistente de correo electrónico con un mensaje de texto adversario, cuando el sistema recupera y procesa este correo electrónico, termina propagando la amenaza a otros usuarios. “La respuesta generada que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts”, explicó uno de los investigadores.
El segundo método de ataque expuesto implicó la incrustación de un código malicioso dentro de una imagen, que cuando fue procesada por el asistente de correo electrónico, resultó en el reenvío del mensaje malicioso a otros destinatarios. Una seria amenaza por la posibilidad de difusión de spam o material de abuso.
Se hace un llamado a adoptar enfoques de seguridad
Aunque estos gusanos de IA generativa aún no han sido observados en el entorno digital real, su existencia teórica refleja un creciente riesgo de seguridad que debería ser de interés para desarrolladores, startups y corporaciones tecnológicas que se apoyan en estas tecnologías emergentes.
De hecho, este estudio no solo subraya la importancia de diseñar sistemas de inteligencia artificial con sólidas medidas de seguridad, sino que también abre el debate sobre la necesidad de regulaciones y protocolos de protección más estrictos frente a las posibles amenazas que la IA generativa representa para la seguridad de la información digital.
“Parece que han encontrado una manera de explotar las vulnerabilidades del tipo de inyección rápida”, comentó un portavoz de OpenAI, señalando que están trabajando para fortalecer sus sistemas contra este tipo de amenazas.