La búsqueda imparable de datos de entrenamiento de la IA está absorbiendo cantidades crecientes de contenido cada vez más cuestionable, incluidos detalles de niños cuyo uso por parte de la IA viola la ley, han descubierto los investigadores.
Al menos 170 enlaces a fotos y detalles personales de niños en Brasil han sido extraídos de internet y utilizados para entrenar sistemas de IA sin el consentimiento o conocimiento de los padres, informó Human Rights Watch en un informe esta semana. Algunos de esos sistemas de IA han generado imágenes explícitas y violentas de niños, dijo HRW.
La ley brasileña prohíbe el procesamiento de datos personales de niños sin el consentimiento del tutor del niño, dijo a Fortune Hye Jung Han, investigadora de derechos tecnológicos de los niños y autora del informe.
Los enlaces a las fotos fueron extraídos de blogs personales y sitios de redes sociales en un gran conjunto de datos llamado LAION-5B, que se ha utilizado para entrenar generadores de imágenes populares como Stable Diffusion. Las 170 fotos de niños son probablemente un “subrecuento significativo”, dijo HRW, ya que el grupo solo revisó el 0.0001% de las 5.8 mil millones de imágenes capturadas en LAION-5B.
“Mi preocupación más amplia es que esto es solo la punta del iceberg”, dijo Han a Fortune. “Es probable que haya muchos más niños y muchas más imágenes de niños brasileños en el conjunto de datos.”
LAION-5B extrajo fotos de niños de tan atrás como 1994, y que claramente fueron publicadas con la expectativa de privacidad, dijo Han. Una de las fotos muestra a una niña de 2 años conociendo a su hermana recién nacida, y la leyenda de la foto incluye no solo los nombres de ambas niñas, sino también el nombre y la dirección del hospital donde nació el bebé.
Ese tipo de información estaba disponible en las URL o en los metadatos de muchas de las fotos, dijo Han. Las identidades de los niños a menudo son fácilmente rastreables a partir de las fotos, ya sea desde la leyenda o a través de la información sobre su paradero cuando se tomó la foto.
Niños pequeños bailando en ropa interior en casa, estudiantes dando una presentación en la escuela, y adolescentes en un carnaval son solo algunos ejemplos de las fotos personales que fueron extraídas. Muchas de ellas fueron publicadas en blogs de mamás, o capturas de pantalla tomadas de videos familiares personales en YouTube con pocas visualizaciones, dijo Han. Las fotos “abarcan toda la infancia”, encontró el informe.
“Es muy probable que estas fueran cuentas personales, y [las personas que subieron las imágenes] solo querían compartir estos videos con familiares y amigos”, agregó Han.
Todas las versiones disponibles públicamente de LAION-5B fueron retiradas el pasado diciembre después de que una investigación de Stanford descubriera que había extraído imágenes de abuso sexual infantil. Nate Tyler, portavoz de LAION, la organización sin fines de lucro que gestiona el conjunto de datos, dijo que la organización está trabajando con la Internet Watch Foundation, el Centro Canadiense para la Protección de la Infancia, Stanford y Human Rights Watch para eliminar todas las referencias conocidas al contenido ilegal de LAION-5B.
“Agradecemos su apoyo y esperamos volver a publicar una versión revisada de LAION-5B pronto”, dijo Tyler.
Agregó que, dado que LAION-5B se construye a partir de enlaces de URL, en lugar de fotografías directas, simplemente eliminar los enlaces de URL del conjunto de datos de LAION no eliminará ningún contenido ilegal de la web.
Sin embargo, todavía hay información identificativa sobre menores dentro de los enlaces, dijo Han. Ella le dijo a Fortune que ha pedido a LAION que haga dos cosas: primero, evitar la ingesta futura de datos de niños, y segundo, eliminar regularmente sus datos del conjunto de datos.
“[LAION] no ha respondido ni se ha comprometido a ninguna de esas cosas”, dijo Han.
Tyler no abordó directamente esta crítica, pero subrayó el compromiso de la organización sin fines de lucro de abordar el problema del material ilegal en la base de datos.
“Este es un problema más grande y muy preocupante, y como una organización sin fines de lucro y de voluntarios, haremos nuestra parte para ayudar”, dijo Tyler.
Gran parte de los datos de LAION-5B se obtienen de Common Crawl, que es un repositorio de datos que copia franjas de Internet abierto. Sin embargo, el director ejecutivo de Common Crawl, Rich Skrenta, dijo anteriormente a Associated Press que es responsabilidad de LAION filtrar lo que toma antes de hacer uso de él.
Potencial de daño
Una vez que se recopilan sus fotos, los niños enfrentan amenazas reales a su privacidad, dijo Han. Los modelos de IA, incluidos los entrenados con datos de LAION-5B, han regurgitado notoriamente información privada, como registros médicos o fotografías personales, cuando se les solicita.
Los modelos de IA ahora pueden generar clones convincentes de un niño con solo una o dos imágenes, escribió el informe.
“Es bastante seguro decir que las fotos que encontré contribuyeron absolutamente a que el modelo pudiera producir imágenes realistas de niños brasileños, incluidas imágenes sexualmente explícitas”, dijo Han.
Más maliciosamente, algunos usuarios han utilizado sitios de IA de texto a imagen para generar pornografía infantil. Uno de esos sitios, llamado Civiai, entrena sus datos a partir de LAION-5B y está inundado de solicitudes de contenido explícito: el 60% de las imágenes generadas en la plataforma se consideran obscenas. Algunos usuarios pidieron y se les proporcionaron imágenes relacionadas con “niña muy pequeña” y “sexo con perro”, encontró una investigación de 404Media, una empresa de periodismo tecnológico.
Civiai, a petición, incluso generó imágenes obscenas de chicas que específicamente no parecían “adultas, viejas” o “con pechos grandes”, reveló 404Media.
Después de que se publicó la investigación, el proveedor de computación en la nube para Civiai, OctoML, rompió su asociación con la empresa. Ahora, Civiai incluye un filtro NSFW, para frustración de algunos usuarios, que dijeron que la plataforma ahora será como “cualquier otra”, según 404Media.
Un portavoz de Civiai le dijo a Fortune que prohibió inmediatamente a cualquier persona que produjera contenido NSFW que involucrara menores, y ha introducido una “membrana semipermeable”, refiriéndose al filtro que bloquea contenido inapropiado.
La tecnología de deepfake ya ha comenzado a impactar a las jóvenes, dijo Han. Al menos 85 niñas brasileñas han enfrentado acoso de compañeros de clase que utilizaron IA para crear deepfakes sexualmente explícitos de ellas, basados en fotos tomadas de sus perfiles en redes sociales, según el informe. Han dijo que comenzó a investigar el tema debido a la consistencia y realismo de estos deepfakes.
“Comencé a mirar qué había en esta tecnología que era capaz de producir imágenes tan realistas, imágenes horribles, de niños brasileños, y esa investigación me llevó al conjunto de datos de entrenamiento”, agregó Han.
Estados Unidos ha visto una serie de incidentes similares. Al menos dos escuelas secundarias han enfrentado escándalos con chicos generando imágenes deepfake desnudas de docenas de sus compañeras de clase.
Algunos estados, incluidos Florida, Luisiana, Dakota del Sur y Washington, han comenzado a prohibir la creación de deepfakes desnudos de menores, y otros estados están considerando proyectos de ley similares. Sin embargo, Han cree que los legisladores deberían ir más allá y proteger completamente los datos de los niños de ser extraídos en sistemas de IA, como una “prueba de futuro”.
“La carga de responsabilidad no debe recaer en los niños y los padres para tratar de proteger a los niños de una tecnología que es fundamentalmente imposible de proteger”, dijo Han. “Los padres deberían poder publicar esas fotos de niños para compartirlas con familiares y amigos y no tener que vivir con el miedo de que esas fotos algún día sean utilizadas como armas en su contra”.
(C) 2024, Fortune