Cómo hacer pruebas de "Red Team" a un modelo de IA generativa

Guardar

En los últimos meses, los gobiernos de todo el mundo han comenzado a converger en torno a una solución para gestionar los riesgos de la IA generativa: el red teaming (equipo rojo). La Administración Biden define vagamente el red teaming como "un esfuerzo de prueba estructurado para encontrar fallas y vulnerabilidades en un sistema de inteligencia artificial".

Centrarse en el red teaming es un avance positivo. Es una de las formas más efectivas de descubrir y gestionar los riesgos de la IA generativa.

Mi bufete de abogados, Luminos.Law, formado conjuntamente por abogados y científicos de datos, se enfoca exclusivamente en la gestión de riesgos de la IA. Tras haber sido contratados para realizar el red teaming de algunos de los modelos de IA generativa más conocidos y adoptados, hemos descubierto lo que funciona (y lo que no) cuando se combina (el red teaming) con IA generativa. Esto es lo que hemos aprendido.

¿QUÉ ES EL RED TEAMING DE LA IA GENERATIVA?

El red teaming de la IA generativa es muy diferente al de otros sistemas de software, incluidos otros tipos de IA. A diferencia de otros sistemas de IA, que suelen utilizarse para tomar una decisión (como a quién contratar o qué calificación crediticia debe tener una persona), los sistemas de IA generativa producen contenido para sus usuarios.

En la práctica, esto significa que las formas en que los equipos rojos interactúan con los sistemas de IA generativa son únicas: Deben centrarse en generar indicaciones maliciosas, o entradas en el modelo, además de realizar pruebas utilizando código más tradicional para evaluar la capacidad del sistema para producir comportamientos perjudiciales o inapropiados.

¿QUIÉN DEBERÍA FORMAR EL RED TEAMING DE LA IA?

Debido a la gran escala de los sistemas de IA que muchas empresas están adoptando, sería imposible realizar un red teaming completo de cada uno de ellos. Por ello, les decimos a nuestros clientes que asignen diferentes niveles de riesgo a los distintos modelos, basándose, por ejemplo, en la probabilidad de que se produzca el daño, la gravedad del daño si ocurre, o la capacidad de rectificar el daño una vez detectado. Los diferentes niveles de riesgo pueden guiar la intensidad de cada esfuerzo de red teaming: el tamaño del equipo, por ejemplo, o el grado en que se prueba el sistema, o incluso si se prueba en absoluto.

OBJETIVOS DE DEGRADACIÓN

Es muy importante comprender cuáles son los perjuicios que deben perseguir los equipos rojos. Seleccionamos lo que llamamos "objetivos de degradación" para guiar nuestros esfuerzos, y comenzamos nuestra labor de red teaming evaluando qué tipos de comportamiento perjudicial del modelo generarán la mayor responsabilidad.

He aquí algunos objetivos de degradación comunes de nuestros esfuerzos pasados de red teaming:

AYUDAR A LOS USUARIOS A PARTICIPAR EN ACTIVIDADES ILÍCITAS

Los usuarios pueden aprovechar los sistemas de IA generativa para llevar a cabo una variedad de actividades perjudiciales. Si no existen salvaguardas suficientes contra este tipo de comportamiento, las empresas pueden terminar compartiendo la responsabilidad del daño final.

SESGO EN EL MODELO

En general, la IA puede generar o perpetuar todo tipo de sesgos. Los sesgos pueden surgir en los resultados del modelo, como la representación injusta de diferentes grupos demográficos en el contenido generado por la IA, así como en el rendimiento del modelo en sí, como la diferencia de rendimiento entre miembros de diferentes grupos.

TOXICIDAD

La toxicidad en la IA generativa surge con la creación de contenido ofensivo o inapropiado. Dado que los modelos de IA generativa están formados por grandes cantidades de datos extraídos de Internet, el contenido tóxico plaga muchos sistemas de IA generativa.

DAÑOS A LA PRIVACIDAD

Hay muchas formas en que los modelos de IA generativa pueden causar daños a la privacidad. A veces, los propios datos de entrenamiento contienen información de identificación personal. En otras ocasiones, el modelo puede filtrar involuntariamente información confidencial de otros usuarios.

La lista de objetivos de degradación suele ser larga, y abarca desde los objetivos descritos anteriormente hasta perjuicios como la infracción de la propiedad intelectual, violaciones contractuales y mucho más.

ATAQUES A LA IA GENERATIVA

Una vez que hemos determinado la composición del red teaming, las responsabilidades y los objetivos de degradación asociados para guiar las pruebas, comienza la parte divertida: atacar el modelo.

Una estrategia de ataque efectiva implica asignar cada objetivo a los ataques que creemos que tienen más probabilidades de tener éxito, así como a los vectores de ataque a través de los cuales planeamos probar el sistema.

Si bien la siguiente lista no incluye todas las técnicas que utilizamos, sí ofrece una muestra de cómo nos gusta abordar los ataques durante el red teaming:

INYECCIÓN DE CÓDIGO. Utilizamos código informático, o indicaciones de entrada que se asemejan al código informático, para que el modelo genere resultados perjudiciales.

AGOTAMIENTO DE CONTENIDO. Empleamos grandes volúmenes de información para abrumar al modelo.

HIPOTÉTICOS. Damos instrucciones al modelo para que cree resultados basados en instrucciones hipotéticas que, de otro modo, activarían los controles de contenido.

PROS Y CONTRAS. Preguntamos sobre los pros y contras de temas controvertidos para generar respuestas perjudiciales.

JUEGO DE ROLES. Dirigimos al modelo para que asuma el papel de una entidad típicamente asociada con declaraciones negativas o controvertidas y, a continuación, lo incitamos a crear contenido perjudicial.

Por supuesto, existen docenas de estrategias de ataque para los sistemas de IA generativa. La clave para realizar pruebas efectivas radica en asignar cada estrategia al objetivo de degradación, al vector de ataque y, por supuesto, en tomar notas para que los ataques exitosos puedan ser capturados y estudiados posteriormente.

UNIRLO TODO

El red teaming de la IA generativa es complicado, pero las dificultades que enfrentan las empresas no solo están relacionadas con la creación de equipos, la alineación de las vulnerabilidades clave, la definición de objetivos de degradación claros y la implementación de las estrategias de ataque adecuadas. También observamos algunos otros problemas que a menudo hacen tropezar a las empresas:

DOCUMENTACIÓN

Un red teaming exitoso a menudo implica probar cientos de estrategias de ataque. Si se utilizan ataques automatizados, esa cifra puede ascender a miles. Con tantas variables, estrategias de prueba, miembros del equipo y más, puede resultar difícil realizar un seguimiento de la información que se genera, y garantizar que los resultados de las pruebas sean comprensibles. Disponer de una orientación clara, no solo sobre cómo realizar las pruebas, sino también sobre cómo documentar cada una de ellas, es una parte crítica, pero que a menudo se pasa por alto durante el proceso de red teaming.

PRIVILEGIO LEGAL

Con tanta información sensible que se genera entre los evaluadores y los equipos, comprender dónde y cuándo hacer valer el privilegio legal es otra consideración importante que a menudo se pasa por alto. A menudo vemos que las posibles responsabilidades se discuten abiertamente en lugares como Slack, lo que hace que esa información sea accesible para las partes adversarias si se produce una supervisión externa, como una investigación regulatoria o una demanda.

QUÉ HACER ANTE LAS VULNERABILIDADES

Tener planes claros para abordar las vulnerabilidades descubiertas por los esfuerzos de red teaming es otra parte central, pero a menudo pasada por alto, del proceso. ¿Quién, en los equipos de productos o de ciencia de datos, es responsable de tomar acción? ¿Se reúnen directamente con el equipo o a través de un intermediario? ¿Intentan reparar las vulnerabilidades mientras se lleva a cabo el red teaming o deben esperar hasta el final del proceso?

Estas cuestiones, y muchas más, deben abordarse antes de que se produzca el red teaming; de lo contrario, la detección de vulnerabilidades en el modelo probablemente generará mucha confusión.

Este artículo solo proporciona una visión general de alto nivel de todas las consideraciones que intervienen para que el red teaming de la IA generativa sea exitoso. Es una de las formas más efectivas de gestionar los riesgos complejos de la tecnología. Las empresas que apuestan por la IA generativa deberían estar igualmente comprometidas con el red teaming.

Últimas Noticias

Cómo decirle a su jefe que está equivocado sin afectar la buena relación

Hablar desde la convicción frente a decisiones cuestionables, revela madurez profesional y compromiso con el éxito colectivo, dicen los expertos

Para que sus esfuerzos de DEI sean más efectivos, desafíe los modelos obsoletos

Harvard Business Review Wake-Up Call Spanish

7 hábitos para mantener la concentración en un mundo lleno de distracciones

Las notificaciones digitales constantes afectan la capacidad de enfocarse en tareas importantes. Una guía para establecer rutinas que aumenten la productividad

Cómo hacer pruebas de "Red Team" a un modelo de IA generativa

Harvard Business Review Management Update Spanish

Últimas Noticias

Cómo decirle a su jefe que está equivocado sin afectar la buena relación

Hablar desde la convicción frente a decisiones cuestionables, revela madurez profesional y compromiso con el éxito colectivo, dicen los expertos

Para que sus esfuerzos de DEI sean más efectivos, desafíe los modelos obsoletos

Harvard Business Review Wake-Up Call Spanish

7 hábitos para mantener la concentración en un mundo lleno de distracciones

Las notificaciones digitales constantes afectan la capacidad de enfocarse en tareas importantes. Una guía para establecer rutinas que aumenten la productividad

El costo oculto de la resaca en las reuniones

Harvard Business Review Wake-Up Call Spanish

4 preguntas que debería hacerse antes de abandonar la universidad

Harvard Business Review Wake-Up Call Spanish

Aumentaron los salarios de los oficiales de las fuerzas de seguridad: cuánto cobrarán a partir de ahora

Horas decisivas en el Senado por Ficha Limpia, en medio de desconfianzas entre el oficialismo y la oposición

Brutal robo frente a una escuela en Ramos Mejía: arrastraron a una mujer por más de una cuadra y ahora lucha por su vida

Juicio por Maradona: declara hoy el neurocirujano que realizó la operación que Luque se adjudicó

Paro de colectivos: qué líneas circularán este martes

Eduardo Halfon tras su historia de falsos nazis: “Se puede vivir sin patria, hay un vacío, pero te motiva”

Operación ‘Fake Monster’: Brasil arrestó al sospechoso de planear un atentado en el show de Lady Gaga en Copacabana

Pena de excomunión: el castigo para el personal que no cumpla con el secreto absoluto durante el cónclave

Sigue la tensión en Cachemira: India redujo en un 90% el caudal de uno de los ríos que abastecen a Pakistán

El Vaticano aislará el cónclave: apagará la red móvil y requisará los teléfonos de cardenales

María Becerra reapareció en las redes sociales después de su grave cuadro de salud: “Es un rayito de sol”

Casados con hijos en Gran Hermano: el divertido sketch de los jugadores y el enojo que desató el papel de Pepe Argento

Luz versus Chiara en Gran Hermano: quién quedó eliminada en el duelo más esperado de la temporada

Wanda Nara contó por qué Mauro Icardi no sale a desmentirla: “La China Suárez lo tiene amenazado”

La romántica escapada de Celeste Cid y Santiago Korovsky a Brasil: “Meu Deus”

Temas Relacionados

Últimas Noticias

Cómo decirle a su jefe que está equivocado sin afectar la buena relación

Hablar desde la convicción frente a decisiones cuestionables, revela madurez profesional y compromiso con el éxito colectivo, dicen los expertos

Para que sus esfuerzos de DEI sean más efectivos, desafíe los modelos obsoletos

Harvard Business Review Wake-Up Call Spanish

7 hábitos para mantener la concentración en un mundo lleno de distracciones

Las notificaciones digitales constantes afectan la capacidad de enfocarse en tareas importantes. Una guía para establecer rutinas que aumenten la productividad

El costo oculto de la resaca en las reuniones

Harvard Business Review Wake-Up Call Spanish

4 preguntas que debería hacerse antes de abandonar la universidad

Harvard Business Review Wake-Up Call Spanish

Aumentaron los salarios de los oficiales de las fuerzas de seguridad: cuánto cobrarán a partir de ahora

Horas decisivas en el Senado por Ficha Limpia, en medio de desconfianzas entre el oficialismo y la oposición

Brutal robo frente a una escuela en Ramos Mejía: arrastraron a una mujer por más de una cuadra y ahora lucha por su vida

Juicio por Maradona: declara hoy el neurocirujano que realizó la operación que Luque se adjudicó

Paro de colectivos: qué líneas circularán este martes

Eduardo Halfon tras su historia de falsos nazis: “Se puede vivir sin patria, hay un vacío, pero te motiva”

Operación ‘Fake Monster’: Brasil arrestó al sospechoso de planear un atentado en el show de Lady Gaga en Copacabana

Pena de excomunión: el castigo para el personal que no cumpla con el secreto absoluto durante el cónclave

Sigue la tensión en Cachemira: India redujo en un 90% el caudal de uno de los ríos que abastecen a Pakistán

El Vaticano aislará el cónclave: apagará la red móvil y requisará los teléfonos de cardenales

María Becerra reapareció en las redes sociales después de su grave cuadro de salud: “Es un rayito de sol”

Casados con hijos en Gran Hermano: el divertido sketch de los jugadores y el enojo que desató el papel de Pepe Argento

Luz versus Chiara en Gran Hermano: quién quedó eliminada en el duelo más esperado de la temporada

Wanda Nara contó por qué Mauro Icardi no sale a desmentirla: “La China Suárez lo tiene amenazado”

La romántica escapada de Celeste Cid y Santiago Korovsky a Brasil: “Meu Deus”