En los últimos meses, los gobiernos de todo el mundo han comenzado a converger en torno a una solución para gestionar los riesgos de la IA generativa: el red teaming (equipo rojo). La Administración Biden define vagamente el red teaming como "un esfuerzo de prueba estructurado para encontrar fallas y vulnerabilidades en un sistema de inteligencia artificial".
Centrarse en el red teaming es un avance positivo. Es una de las formas más efectivas de descubrir y gestionar los riesgos de la IA generativa.
Mi bufete de abogados, Luminos.Law, formado conjuntamente por abogados y científicos de datos, se enfoca exclusivamente en la gestión de riesgos de la IA. Tras haber sido contratados para realizar el red teaming de algunos de los modelos de IA generativa más conocidos y adoptados, hemos descubierto lo que funciona (y lo que no) cuando se combina (el red teaming) con IA generativa. Esto es lo que hemos aprendido.
¿QUÉ ES EL RED TEAMING DE LA IA GENERATIVA?
El red teaming de la IA generativa es muy diferente al de otros sistemas de software, incluidos otros tipos de IA. A diferencia de otros sistemas de IA, que suelen utilizarse para tomar una decisión (como a quién contratar o qué calificación crediticia debe tener una persona), los sistemas de IA generativa producen contenido para sus usuarios.
En la práctica, esto significa que las formas en que los equipos rojos interactúan con los sistemas de IA generativa son únicas: Deben centrarse en generar indicaciones maliciosas, o entradas en el modelo, además de realizar pruebas utilizando código más tradicional para evaluar la capacidad del sistema para producir comportamientos perjudiciales o inapropiados.
¿QUIÉN DEBERÍA FORMAR EL RED TEAMING DE LA IA?
Debido a la gran escala de los sistemas de IA que muchas empresas están adoptando, sería imposible realizar un red teaming completo de cada uno de ellos. Por ello, les decimos a nuestros clientes que asignen diferentes niveles de riesgo a los distintos modelos, basándose, por ejemplo, en la probabilidad de que se produzca el daño, la gravedad del daño si ocurre, o la capacidad de rectificar el daño una vez detectado. Los diferentes niveles de riesgo pueden guiar la intensidad de cada esfuerzo de red teaming: el tamaño del equipo, por ejemplo, o el grado en que se prueba el sistema, o incluso si se prueba en absoluto.
OBJETIVOS DE DEGRADACIÓN
Es muy importante comprender cuáles son los perjuicios que deben perseguir los equipos rojos. Seleccionamos lo que llamamos "objetivos de degradación" para guiar nuestros esfuerzos, y comenzamos nuestra labor de red teaming evaluando qué tipos de comportamiento perjudicial del modelo generarán la mayor responsabilidad.
He aquí algunos objetivos de degradación comunes de nuestros esfuerzos pasados de red teaming:
AYUDAR A LOS USUARIOS A PARTICIPAR EN ACTIVIDADES ILÍCITAS
Los usuarios pueden aprovechar los sistemas de IA generativa para llevar a cabo una variedad de actividades perjudiciales. Si no existen salvaguardas suficientes contra este tipo de comportamiento, las empresas pueden terminar compartiendo la responsabilidad del daño final.
SESGO EN EL MODELO
En general, la IA puede generar o perpetuar todo tipo de sesgos. Los sesgos pueden surgir en los resultados del modelo, como la representación injusta de diferentes grupos demográficos en el contenido generado por la IA, así como en el rendimiento del modelo en sí, como la diferencia de rendimiento entre miembros de diferentes grupos.
TOXICIDAD
La toxicidad en la IA generativa surge con la creación de contenido ofensivo o inapropiado. Dado que los modelos de IA generativa están formados por grandes cantidades de datos extraídos de Internet, el contenido tóxico plaga muchos sistemas de IA generativa.
DAÑOS A LA PRIVACIDAD
Hay muchas formas en que los modelos de IA generativa pueden causar daños a la privacidad. A veces, los propios datos de entrenamiento contienen información de identificación personal. En otras ocasiones, el modelo puede filtrar involuntariamente información confidencial de otros usuarios.
La lista de objetivos de degradación suele ser larga, y abarca desde los objetivos descritos anteriormente hasta perjuicios como la infracción de la propiedad intelectual, violaciones contractuales y mucho más.
ATAQUES A LA IA GENERATIVA
Una vez que hemos determinado la composición del red teaming, las responsabilidades y los objetivos de degradación asociados para guiar las pruebas, comienza la parte divertida: atacar el modelo.
Una estrategia de ataque efectiva implica asignar cada objetivo a los ataques que creemos que tienen más probabilidades de tener éxito, así como a los vectores de ataque a través de los cuales planeamos probar el sistema.
Si bien la siguiente lista no incluye todas las técnicas que utilizamos, sí ofrece una muestra de cómo nos gusta abordar los ataques durante el red teaming:
INYECCIÓN DE CÓDIGO. Utilizamos código informático, o indicaciones de entrada que se asemejan al código informático, para que el modelo genere resultados perjudiciales.
AGOTAMIENTO DE CONTENIDO. Empleamos grandes volúmenes de información para abrumar al modelo.
HIPOTÉTICOS. Damos instrucciones al modelo para que cree resultados basados en instrucciones hipotéticas que, de otro modo, activarían los controles de contenido.
PROS Y CONTRAS. Preguntamos sobre los pros y contras de temas controvertidos para generar respuestas perjudiciales.
JUEGO DE ROLES. Dirigimos al modelo para que asuma el papel de una entidad típicamente asociada con declaraciones negativas o controvertidas y, a continuación, lo incitamos a crear contenido perjudicial.
Por supuesto, existen docenas de estrategias de ataque para los sistemas de IA generativa. La clave para realizar pruebas efectivas radica en asignar cada estrategia al objetivo de degradación, al vector de ataque y, por supuesto, en tomar notas para que los ataques exitosos puedan ser capturados y estudiados posteriormente.
UNIRLO TODO
El red teaming de la IA generativa es complicado, pero las dificultades que enfrentan las empresas no solo están relacionadas con la creación de equipos, la alineación de las vulnerabilidades clave, la definición de objetivos de degradación claros y la implementación de las estrategias de ataque adecuadas. También observamos algunos otros problemas que a menudo hacen tropezar a las empresas:
DOCUMENTACIÓN
Un red teaming exitoso a menudo implica probar cientos de estrategias de ataque. Si se utilizan ataques automatizados, esa cifra puede ascender a miles. Con tantas variables, estrategias de prueba, miembros del equipo y más, puede resultar difícil realizar un seguimiento de la información que se genera, y garantizar que los resultados de las pruebas sean comprensibles. Disponer de una orientación clara, no solo sobre cómo realizar las pruebas, sino también sobre cómo documentar cada una de ellas, es una parte crítica, pero que a menudo se pasa por alto durante el proceso de red teaming.
PRIVILEGIO LEGAL
Con tanta información sensible que se genera entre los evaluadores y los equipos, comprender dónde y cuándo hacer valer el privilegio legal es otra consideración importante que a menudo se pasa por alto. A menudo vemos que las posibles responsabilidades se discuten abiertamente en lugares como Slack, lo que hace que esa información sea accesible para las partes adversarias si se produce una supervisión externa, como una investigación regulatoria o una demanda.
QUÉ HACER ANTE LAS VULNERABILIDADES
Tener planes claros para abordar las vulnerabilidades descubiertas por los esfuerzos de red teaming es otra parte central, pero a menudo pasada por alto, del proceso. ¿Quién, en los equipos de productos o de ciencia de datos, es responsable de tomar acción? ¿Se reúnen directamente con el equipo o a través de un intermediario? ¿Intentan reparar las vulnerabilidades mientras se lleva a cabo el red teaming o deben esperar hasta el final del proceso?
Estas cuestiones, y muchas más, deben abordarse antes de que se produzca el red teaming; de lo contrario, la detección de vulnerabilidades en el modelo probablemente generará mucha confusión.
Este artículo solo proporciona una visión general de alto nivel de todas las consideraciones que intervienen para que el red teaming de la IA generativa sea exitoso. Es una de las formas más efectivas de gestionar los riesgos complejos de la tecnología. Las empresas que apuestan por la IA generativa deberían estar igualmente comprometidas con el red teaming.