Víctima de su propio invento: inteligencia artificial es hackeada por sus modelos

Llamado Morris II, es capaz de infectar con un malware estos sistemas de IA para robar datos de los usuarios

Guardar
Este gusano podría comprometer asistentes de correo electrónico basados en inteligencia artificial para extraer información personal y enviar correos no deseados. (ESET)
Este gusano podría comprometer asistentes de correo electrónico basados en inteligencia artificial para extraer información personal y enviar correos no deseados. (ESET)

Un equipo de expertos del centro de investigación Cornell Tech desarrolló un gusano informático de inteligencia artificial generativa capaz de propagarse de un sistema a otro y potencialmente robar datos o instalar programas maliciosos en el proceso.

Llamado Morris II, plantea nuevos desafíos para la seguridad en el ámbito de modelos como ChatGPT de OpenAI y Gemini de Google, debido a que puede atacar a un asistente de correo electrónico de IA para sustraer datos de correos electrónicos y enviar mensajes de spam.

Recordemos que un gusano informático es un programa malicioso que puede replicarse sin la activación de sus huéspedes y se reproduce a sí mismo mientras se propaga a tantos ordenadores como sea posible. Este software maligno suele utilizar una red informática para propagarse, aprovechando las fallas de seguridad para acceder a ella.

Cómo crearon al gusano que se propaga entre asistentes de IA

El malware llamado Morris II buscó demostrar los riesgos de los ecosistemas autónomos y conectados por la IA generativa que empezamos a usar diariamente. (ComPromptMized)
El malware llamado Morris II buscó demostrar los riesgos de los ecosistemas autónomos y conectados por la IA generativa que empezamos a usar diariamente. (ComPromptMized)

Morris II fue creado por los investigadores Ben Nassi, Stav Cohen y Ron Bitton, y su alcance fue analizado en entornos de prueba. Además, su nombre se inspira en el gusano informático Morris que fue considerado como el primer malware de la historia y que causó estragos en 1988.

Los investigadores hicieron uso de lo que denominan un “mensaje de autorreplicación adversario”, un comando que induce al modelo de IA a generar en sus respuestas otros mensajes con el potencial de ejecutar acciones maliciosas. Algo que recuerda a los tipos de ataque como la inyección SQL (infiltración de código intruso) y el desbordamiento de búfer.

El gusano fue probado exitosamente en un sistema de correo electrónico experimental vinculado a ChatGPT, Gemini y el LLM de código abierto LLaVA, exponiendo vulnerabilidades críticas cuando el sistema procesaba tanto texto como imágenes incrustadas con mensajes maliciosos.

Cómo se perpetraron los ataques

El gusano se propaga entre asistentes de IA generativa para robar información e instalar ‘malware’. (CIS informática)
El gusano se propaga entre asistentes de IA generativa para robar información e instalar ‘malware’. (CIS informática)

La investigación planteó un escenario en el cual, mediante la inserción estratégica de textos ocultos o imágenes, un atacante podría comprometer modelos basados en aprendizaje automático para obligarlos a actuar en contra de sus protocolos de seguridad previstos y ejecutar acciones no autorizadas, como la sustracción de información confidencial.

La primera estrategia de ataque detallada implicó el uso de generación de recuperación aumentada (RAG), una tecnología que permite a los modelos lingüísticos grandes (LLM) obtener datos adicionales desde fuentes externas.

Los expertos encontraron que al “envenenar” la base de datos de un asistente de correo electrónico con un mensaje de texto adversario, cuando el sistema recupera y procesa este correo electrónico, termina propagando la amenaza a otros usuarios. “La respuesta generada que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts”, explicó uno de los investigadores.

El segundo método de ataque expuesto implicó la incrustación de un código malicioso dentro de una imagen, que cuando fue procesada por el asistente de correo electrónico, resultó en el reenvío del mensaje malicioso a otros destinatarios. Una seria amenaza por la posibilidad de difusión de spam o material de abuso.

Se hace un llamado a adoptar enfoques de seguridad

Expertos en seguridad han resaltado el potencial riesgo que representan los gusanos generativos de IA. (Imagen Ilustrativa Infobae)
Expertos en seguridad han resaltado el potencial riesgo que representan los gusanos generativos de IA. (Imagen Ilustrativa Infobae)

Aunque estos gusanos de IA generativa aún no han sido observados en el entorno digital real, su existencia teórica refleja un creciente riesgo de seguridad que debería ser de interés para desarrolladores, startups y corporaciones tecnológicas que se apoyan en estas tecnologías emergentes.

De hecho, este estudio no solo subraya la importancia de diseñar sistemas de inteligencia artificial con sólidas medidas de seguridad, sino que también abre el debate sobre la necesidad de regulaciones y protocolos de protección más estrictos frente a las posibles amenazas que la IA generativa representa para la seguridad de la información digital.

“Parece que han encontrado una manera de explotar las vulnerabilidades del tipo de inyección rápida”, comentó un portavoz de OpenAI, señalando que están trabajando para fortalecer sus sistemas contra este tipo de amenazas.

Guardar