Una nueva empresa de IA detecta miles de vulnerabilidades en herramientas populares

Tras realizar pruebas exhaustivas, Haize Labs encontró numerosos fallos de seguridad en programas de inteligencia artificial generativa, desvelando la capacidad de estos sistemas para generar contenido inapropiado y recomendar actividades peligrosas

Guardar
Haize Labs publica la lista
Haize Labs publica la lista de vulnerabilidades en herramientas de inteligencia artificial - (Imagen Ilustrativa Infobae)

Una nueva empresa de inteligencia artificial dice que encontró miles de vulnerabilidades en programas populares de inteligencia artificial generativa y publicó una lista de sus descubrimientos.

Después de probar programas populares de IA generativa, incluido el creador de videos Pika, ChatGPT centrado en texto, el generador de imágenes Dall-E y un sistema de IA que genera código informático, Haize Labs descubrió que muchas de las herramientas conocidas producían contenido violento o sexualizado, instruyó a los usuarios sobre la producción de armas químicas y biológicas y permitió la automatización de ciberataques.

Haize es una pequeña empresa emergente de cinco meses fundada por Leonard Tang, Steve Li y Richard Liu, tres recién graduados que se conocieron en la universidad. En conjunto, publicaron 15 artículos sobre aprendizaje automático mientras estaban en la escuela.

Herramientas de IA generativa como
Herramientas de IA generativa como ChatGPT y Dall-E presentan riesgos de seguridad. (Foto AP/Michael Dwyer, Archivo)

Tang describió a Haize como un “tercero independiente que realiza pruebas de estrés” y dijo que el objetivo de su empresa es ayudar a erradicar los problemas y vulnerabilidades de la IA a escala. Señalando a una de las mayores firmas de calificación de bonos como comparación, Tang dijo que Haize espera convertirse en un “Moody’s para la IA” que establezca calificaciones de seguridad pública para modelos populares.

La seguridad de la IA es una preocupación creciente a medida que más empresas integran la IA generativa en sus ofertas y utilizan grandes modelos de lenguaje en productos de consumo. El mes pasado, Google enfrentó duras críticas después de que su herramienta experimental “AI Overviews”, que pretende responder a las preguntas de los usuarios, sugiriera actividades peligrosas como comer una piedra pequeña por día o agregar pegamento a la pizza. En febrero, Air Canada fue criticada cuando su chatbot con inteligencia artificial prometió un descuento falso a un viajero.

Los observadores de la industria han pedido mejores formas de evaluar los riesgos de las herramientas de inteligencia artificial. “A medida que los sistemas de IA se implementen ampliamente, necesitaremos un mayor conjunto de organizaciones para probar sus capacidades y posibles usos indebidos o problemas de seguridad”, publicó recientemente Jack Clark, cofundador de la empresa de seguridad e investigación de IA Anthropic, en X.

Google enfrenta críticas por fallos
Google enfrenta críticas por fallos de seguridad en su herramienta experimental de IA. (ChatGPT)

“Lo que hemos aprendido es que a pesar de todos los esfuerzos de seguridad que han realizado estas grandes empresas y laboratorios industriales, todavía es muy fácil convencer a estos modelos para que hagan cosas que se supone que no deben hacer; no son tan seguros”, dijo Tang.

Las pruebas de Haize automatizan el “equipo rojo”, la práctica de simular acciones adversas para identificar vulnerabilidades en un sistema de IA. “Piense en nosotros como automatizando y cristalizando la confusión en torno a garantizar que los modelos cumplan con los estándares de seguridad y el cumplimiento de la IA”, dijo Tang. La industria de la IA necesita una entidad de seguridad independiente, afirmó Graham Neubig, profesor asociado de informática en la Universidad Carnegie Mellon.

“Las herramientas de seguridad de IA de terceros son importantes”, dijo Neubig. “Son justos e imparciales porque no los construyen las propias empresas que fabrican los modelos. Además, una herramienta de seguridad de terceros puede tener un mayor rendimiento con respecto a la auditoría porque está creada por una organización que se especializa en eso, en lugar de que cada empresa cree sus herramientas ad hoc”.

Haize está abriendo los ataques descubiertos en su revisión en la plataforma de desarrolladores GitHub para crear conciencia sobre la necesidad de seguridad de la IA. Haize dijo que señaló de manera proactiva las vulnerabilidades a los fabricantes de las herramientas de inteligencia artificial probadas, y la nueva empresa se asoció con Anthropic para realizar pruebas de estrés de un producto algorítmico inédito.

Tang dijo que erradicar las vulnerabilidades en las plataformas de inteligencia artificial a través de sistemas automatizados es crucial porque descubrir problemas manualmente lleva mucho tiempo y expone a quienes trabajan en la moderación de contenido a contenido violento y perturbador. Parte del contenido descubierto a través de la revisión de Haize Labs de herramientas populares de IA generativa incluía imágenes y texto horripilantes y gráficos.

“Se ha hablado demasiado sobre los problemas de seguridad del tipo que la IA se apodera del mundo”, dijo Tang. “Creo que son importantes, pero el problema mucho mayor es el mal uso a corto plazo de la IA”.

Guardar

Últimas Noticias

Brasil eliminó el horario de verano hace cinco años: la crisis climática reavivó el debate

El ex presidente Jair Bolsonaro prometió el fin “permanente” de la confusión horaria. El cambio climático podría echar por tierra ese plan
Brasil eliminó el horario de

El norte de Israel está tranquilo de nuevo, pero la mayoría de las familias no han regresado a casa

De los 60.000 israelíes desplazados de sus hogares en el norte debido al fuego de Hezbolá, solo aproximadamente el 20 por ciento ha regresado desde que se alcanzó un acuerdo de alto el fuego hace cinco semanas
El norte de Israel está

Cirujano general de EEUU pide que el alcohol lleve una advertencia sobre el cáncer

La principal autoridad sanitaria del país ha planteado la inclusión de mensajes que adviertan sobre los riesgos oncológicos asociados con ciertas bebidas
Cirujano general de EEUU pide

Todo lo que hay que saber sobre el norovirus: síntomas, contagio y tratamiento

La enfermedad provoca vómitos y diarrea severos y afecta a 685 millones de personas al año. Los casos aumentaron en Estados Unidos, en medio del clima invernal y a una menor inmunidad tras la pandemia
Todo lo que hay que

El Departamento del Tesoro de EEUU afirmó que fue hackeado por un actor respaldado por el régimen de China

El 8 de diciembre, un proveedor de software externo, BeyondTrust, notificó al departamento que un hacker había obtenido acceso a una clave de seguridad, lo que le permitió al intruso anular ciertos protocolos de seguridad y acceder a algunas estaciones de trabajo y documentos no clasificados almacenados en ellas
El Departamento del Tesoro de