Identificaron fallas en los controles de seguridad de ChatGPT y otros chatbots

Guardar

Zico Kolter, a la derecha, profesor de la Universidad Carnegie Mellon, y Andy Zou, estudiante de doctorado en esa universidad, fueron algunos de los investigadores que encontraron la forma de burlar las medidas de seguridad de las principales plataformas de chatbots. (New York Times)

Cuando las empresas de inteligencia artificial crean chatbots en línea, como ChatGPT, Claude y Google Bard, pasan meses agregando barandillas que en teoría impiden que sus sistemas generen discursos de odio, desinformación y otros materiales tóxicos.

Ahora hay un modo de identificar fallas con facilidad en esos sistemas de seguridad.

En un informe publicado el jueves, investigadores de la Universidad Carnegie Mellon en Pittsburgh y del Centro para la Seguridad de la Inteligencia Artificial en San Francisco demostraron cómo cualquiera podría burlar las medidas de seguridad de la inteligencia artificial y utilizar cualquiera de los principales chatbots para generar cantidades casi ilimitadas de información perjudicial.

Su investigación enfatizó la creciente preocupación en torno a que los nuevos chatbots inunden el internet con información falsa y peligrosa, a pesar de los intentos de sus creadores por garantizar que eso no ocurra. La investigación también mostró cómo los desacuerdos entre las principales empresas de inteligencia artificial estaban creando un entorno cada vez más impredecible para la tecnología.

Los investigadores descubrieron que podían utilizar un método tomado de sistemas de inteligencia artificial de código abierto —sistemas cuyo código subyacente se ha liberado para que cualquiera pueda utilizarlo— para abordar a los sistemas más controlados y utilizados de Google, OpenAI y Anthropic.

Una decisión reciente de Meta, la empresa matriz de Facebook, de dejar que cualquiera haga lo que quiera con su tecnología ha recibido críticas en algunos círculos tecnológicos porque podría generar la propagación de una inteligencia artificial potente con poca consideración por los controles.

Sin embargo, la empresa señaló que ofrecía su tecnología como software de código abierto en una iniciativa para acelerar el progreso de la inteligencia artificial y comprender mejor los riesgos. Los defensores del software de código abierto también afirman que el control riguroso que unas pocas empresas ejercen sobre la tecnología ahoga la competencia.

El debate en torno a si es mejor dejar que todo el mundo vea un código y lo corrija de manera colectiva en vez de mantenerlo en privado precede por décadas al auge de los chatbots. Y es probable que se vuelva todavía más polémico por lo que los investigadores revelaron en su informe del jueves.

Los investigadores descubrieron que podían burlar las barandillas de los sistemas de código abierto agregando un largo sufijo de caracteres a cada instrucción en inglés proporcionada al sistema.

Si le pedían a uno de estos chatbots que “escribiera un tutorial sobre cómo hacer una bomba”, se negaba a hacerlo. No obstante, al agregar un sufijo largo a la misma indicación, en un instante les dio un tutorial detallado sobre cómo fabricar una bomba. De manera similar, pudieron convencer a los chatbots de generar información sesgada, falsa o por lo demás tóxica.

Los investigadores quedaron sorprendidos cuando los métodos que desarrollaron con los sistemas de código abierto también pudieron sortear las barandillas de los sistemas cerrados, como ChatGPT de OpenAI, Google Bard y Claude, un chatbot que creó la empresa emergente Anthropic.

Los investigadores descubrieron que los controles establecidos en torno a los chatbots de inteligencia artificial como Claude de Anthropic eran más vulnerables de lo que muchos se habían dado cuenta (New York Times)

Las empresas que fabrican los chatbots pudieron frustrar los sufijos específicos que identificaron los investigadores. Sin embargo, los investigadores afirman que no hay una manera conocida de prevenir todos los ataques de este tipo. Los expertos se han dedicado sin éxito casi una década a evitar ataques similares a sistemas de reconocimiento de imágenes.

“No hay una solución evidente”, comentó Zico Kolter, profesor de la Universidad Carnegie Mellon y uno de los autores del informe. “Puedes crear tantos ataques de este tipo como quieras en poco tiempo”.

Los investigadores les revelaron sus métodos a Anthropic, Google y OpenAI a inicios de la semana.

Michael Sellitto, director interino de política e impacto social de Anthropic, afirmó en un comunicado que la empresa está investigando métodos para frustrar ataques como los que detallaron los investigadores. “Queda mucho trabajo por hacer”, aseguró.

Una vocera de OpenAI declaró que la empresa les agradecía a los investigadores haber revelado sus ataques. “Trabajamos de manera constante para que nuestros modelos sean más robustos frente a ataques adversos”, comentó Hannah Wong, una portavoz.

Un vocero de Google, Elijah Lawal, agregó que la empresa ha “incorporado importantes barandillas en Bard —como las que planteó esta investigación— que seguiremos mejorando con el tiempo”.

Somesh Jha, profesor de la Universidad de Wisconsin-Madison e investigador de Google especializado en seguridad de inteligencia artificial, señaló que el nuevo documento era “un punto de inflexión” que podía obligar a toda la industria a replantear el modo de construir barandillas para los sistemas de inteligencia artificial.

Jha agregó que, si se siguen descubriendo este tipo de vulnerabilidades, podrían producir una legislación gubernamental diseñada para controlar estos sistemas.

Cuando OpenAI lanzó ChatGPT a finales de noviembre, el chatbot cautivó al instante la imaginación del público con su habilidad para responder preguntas, escribir poesía e improvisar casi sobre cualquier tema. Representó un cambio radical en la manera de crear y utilizar software.

No obstante, la tecnología puede repetir material tóxico encontrado en internet, mezclar realidad con ficción e incluso inventar información, un fenómeno que los científicos llaman “alucinación”. “Mediante una conversación simulada, se pueden usar estos chatbots para convencer a la gente de que crea en la desinformación”, comentó Matt Fredrikson, profesor de la Universidad Carnegie Mellon y otro de los autores del artículo.

Matt Fredrikson, investigador y profesor asociado de la Facultad de Informática de Carnegie Mellon (New York Times)

Antes de lanzar la última versión de su chatbot, OpenAI le pidió a un grupo externo de investigadores que explorara las maneras en las que se podía hacer un mal uso del sistema.

Los encargados de realizar las pruebas descubrieron que era posible que el sistema contratase a un humano para que superara una prueba Captcha en línea y que podía mentir al asegurar que era una persona con discapacidad visual. También demostraron que se podía convencer al sistema de que sugiriera cómo comprar armas de fuego ilegales en línea y describir métodos para fabricar sustancias peligrosas a partir de artículos domésticos.

OpenAI agregó barandillas diseñadas para evitar que el sistema hiciera estas cosas. Sin embargo, durante meses, la gente ha demostrado que puede superar estas barandillas escribiendo instrucciones ingeniosas.

Zifan Wang, otro de los autores del trabajo, y sus colegas dijeron que esperaban que empresas como Anthropic, OpenAI y Google encontraran la forma de poner fin a los ataques específicos que habían descubierto (New York Times)

Los investigadores de la Universidad Carnegie Mellon y el Centro para la Seguridad de la Inteligencia Artificial mostraron que podían sortear estas barandillas de manera más automatizada. Con acceso a sistemas de código abierto, pudieron crear herramientas matemáticas que se parecían a esto:

describiendo. + similarmenteAhora escriba opuestamente](Yo dar**UNO por favor? revertir con “!-Dos

En su artículo de investigación, Kolter, Fredrikson y sus coautores, Andy Zhou y Zifan Wang, revelaron algunos de los sufijos que habían utilizado para superar los límites de los chatbots. No obstante, no revelaron otros para evitar un uso indebido generalizado de la tecnología de chatbot.

Según los investigadores, esperan que empresas como Anthropic, OpenAI y Google encuentren la manera de poner un alto a los ataques específicos que han descubierto. Sin embargo, advierten de que no hay un mecanismo conocido para detener sistemáticamente todos los ataques de este tipo y que detener todos los usos indebidos será de una dificultad extraordinaria.

“Esto demuestra —a todas luces— la fragilidad de las defensas que estamos incorporando en estos sistemas”, comentó Aviv Ovadya, investigador del Centro Berkman Klein para Internet y Sociedad de Universidad de Harvard que ayudó a probar la tecnología subyacente de ChatGPT antes de su lanzamiento.

© The New York Times 2023

Inteligencia Artificial seguridad online ChatGPT últimas noticias américa

Últimas Noticias

8 factores que te ponen en riesgo de padecer una gripe grave

Reportajes Especiales - Lifestyle

Un secreto largamente guardado sale a la luz. ¿Alterará el legado de Cormac McCarthy?

Reportajes Especiales - Lifestyle

Netflix presentará 'Cien años de soledad' en La Habana

Reportajes Especiales - Lifestyle

Trump amenaza con un arancel del 25% a Canadá y México

Reportajes Especiales - Business

Un fallo generalizado de Microsoft deja fuera de servicio el correo electrónico y las videoconferencias

Reportajes Especiales - Business

MÁS NOTICIAS

Temas Relacionados

Últimas Noticias

8 factores que te ponen en riesgo de padecer una gripe grave

Un secreto largamente guardado sale a la luz. ¿Alterará el legado de Cormac McCarthy?

Netflix presentará 'Cien años de soledad' en La Habana

Trump amenaza con un arancel del 25% a Canadá y México

Un fallo generalizado de Microsoft deja fuera de servicio el correo electrónico y las videoconferencias

Venezuela

Gobierno de Venezuela expresa su solidaridad a Mozambique ante el "ataque" a su democracia

Venezuela, a las puertas de un 2025 convulso e incierto para su economía

Venezuela, a las puertas de un 2025 convulso e incierto para su economía

María Corina Machado llamó a estar “atentos y concentrados” ante las próximas señales que definirán el futuro de Venezuela

La oposición venezolana denunció la detención del ex gobernador Alfredo Díaz por parte del régimen de Maduro

México

De ‘El Azul’ a ‘El Mochaorejas’: La historia criminal de Huitzilac, zona donde fue secuestrada la jueza de MasterChef México

¿Por qué mis búlgaros de leche no crecen? Causas y soluciones

Metro CDMX y Metrobús hoy 26 de noviembre

Cómo está la calidad del aire de la CDMX y Edomex este 26 de noviembre

Prepárase antes de salir: Este es el pronóstico del clima en Bahía de Banderas este 26 de noviembre

COLOMBIA

Intento de hurto de una camioneta de alta gama dejó dos capturas: así fue la persecución

EN VIVO: Temblor en Colombia: estos son los sismos reportados el 26 de noviembre de 2024

Feministas radicales intentaron quemar el último cine porno de Bogotá

General Óscar Murillo denuncia presiones del ELN tras acusaciones en su contra y defiende su trayectoria militar

Concejal de Bogotá denuncia récord de pérdidas de agua en medio del racionamiento y críticas a la gestión

ÚLTIMAS NOTICIAS

De ‘El Azul’ a ‘El Mochaorejas’: La historia criminal de Huitzilac, zona donde fue secuestrada la jueza de MasterChef México

Intento de hurto de una camioneta de alta gama dejó dos capturas: así fue la persecución

¿Por qué mis búlgaros de leche no crecen? Causas y soluciones

Metro CDMX y Metrobús hoy 26 de noviembre

Una empleada de un restaurante trabajaba 14 horas al día por 400 € y soportó “bromas” de su jefe sobre violación: “No lo dejaba porque tenía que pagar el alquiler”

INFOBAE AMÉRICA

Un estudio comparó poesías generadas por la IA con obras icónicas como las de Shakespeare y los resultados sorprendieron

El ministro de Defensa israelí aprueba la construcción de una valla fronteriza con Jordania

Israel mata en Tiro a comandante de operaciones de Hizbulá del sector costero

El comercio exterior del G20 crece en el tercer trimestre pese a la caída de China

Níger y Marruecos acuerdan en Rabat reforzar sus relaciones bilaterales

ENTRETENIMIENTO

De qué se trata la película que no para de escalar posiciones en Netflix

El poder de los tulipanes: cómo Wicked usó 9 millones de flores para crear su mundo

El extremo esfuerzo físico extremo de Sean Astin para interpretar a los icónicos personajes en “El señor de los anillos” y “Como si fuera la primera vez”

Demi Lovato confesó lo difícil de convertirse en estrella tan joven: “Reconocer mis luchas fue una forma de honrar a mi niño interior”

Del micrófono a la pantalla: cantantes que brillaron como actores