Cuando los términos de servicio cambian para dar lugar al entrenamiento de la IA

Reportajes Especiales - Business

Guardar

SAN FRANCISCO -- El pasado mes de julio, Google introdujo un cambio de ocho palabras en su política de privacidad que supuso un paso importante en su carrera por construir la próxima generación de inteligencia artificial.

Con miles de palabras ocultas en su documento, Google modificó la redacción de cómo utilizaba los datos para sus productos, añadiendo que la información pública podría utilizarse para entrenar a su chatbot de IA y otros servicios.

El sutil cambio no es exclusivo de Google. A medida que las empresas tratan de entrenar a sus modelos de IA con datos protegidos por leyes de privacidad, están reescribiendo con cuidado sus términos y condiciones para incluir palabras como "inteligencia artificial", "aprendizaje automático" e "IA generativa".

Algunos cambios en los términos de servicio son pequeños, con unas cuantas palabras. Otros incluyen la adición de secciones enteras para explicar cómo funcionan los modelos de IA generativa y los tipos de acceso que tienen a los datos de los usuarios. Snap, por ejemplo, advirtió a sus usuarios que no compartieran información confidencial con su chatbot de IA porque se utilizaría en su entrenamiento, y Meta alertó a los usuarios en Europa que el contenido público en Facebook e Instagram pronto se utilizaría para entrenar a su gran modelo de lenguaje.

Estos términos y condiciones --que mucha gente ha ignorado durante mucho tiempo-- están siendo impugnados por algunos usuarios que son escritores, ilustradores y artistas visuales y temen que su trabajo se esté utilizando para entrenar a los productos que amenazan con remplazarlos.

"Nos están destruyendo a diestro y siniestro con contenidos de calidad inferior que, básicamente, se han creado a partir de nuestro material, y ahora nos descartan", afirmó Sasha Yanshin, personalidad de YouTube y cofundador de un sitio de recomendaciones de viajes.

Este mes, Yanshin canceló su suscripción a Adobe por un cambio en su política de privacidad. "La ferretería que te vende un pincel no se apropia del cuadro que haces con él, ¿verdad?", cuestionó.

Para entrenar a la IA generativa, las empresas tecnológicas pueden recurrir a dos tipos de datos: públicos y privados. Los datos públicos están disponibles en internet para que cualquiera pueda verlos, mientras que los privados incluyen mensajes de texto, correos electrónicos y publicaciones en redes sociales realizadas desde cuentas privadas.

Los datos públicos son un recurso finito, y varias empresas están a pocos años de utilizarlos todos para sus sistemas de IA. Sin embargo, gigantes tecnológicos como Meta y Google cuentan con un tesoro de datos privados que podría ser diez veces mayor que el de sus homólogos públicos, afirmó Tamay Besiroglu, director adjunto de Epoch, un instituto de investigación sobre IA.

Según Besiroglu, esos datos podrían suponer "una ventaja sustancial" en la carrera de la IA. El problema es acceder a ellos. Los datos privados están protegidos en su mayor parte por un mosaico de leyes federales y estatales sobre privacidad que conceden a los usuarios algún tipo de licencia sobre los contenidos que crean en línea, y las empresas no pueden utilizarlos para sus propios productos sin consentimiento.

En febrero, la Comisión Federal de Comercio advirtió a las empresas tecnológicas que cambiar las políticas de privacidad para extraer con carácter retroactivo datos antiguos podría ser "desleal o engañoso".

El entrenamiento de la IA podría llegar a utilizar los tipos de datos más personales, como los mensajes a amigos y familiares. Un portavoz de Google señaló que un pequeño grupo de usuarios de prueba, con permiso, había permitido a Google entrenar a su IA con algunos aspectos de sus correos electrónicos personales.

Algunas empresas han tenido problemas para equilibrar su ansia de nuevos datos con la preocupación por la privacidad de los usuarios. En junio, Adobe se enfrentó a una reacción violenta en las redes sociales después de cambiar su política de privacidad para incluir una frase sobre automatización que muchos de sus clientes interpretaron como que tenía que ver con la extracción de contenidos destinada a la IA.

La empresa explicó los cambios con un par de entradas de blog, en las que decía que los clientes los habían malinterpretado. El 18 de junio, Adobe añadió explicaciones en la parte superior de algunas secciones de sus términos y condiciones.

"Nunca hemos entrenado IA generativa con el contenido de los clientes, ni nos hemos apropiado del trabajo de los clientes, ni hemos permitido el acceso al contenido de los clientes más allá de los requisitos legales", aseguró mediante un comunicado Dana Rao, abogado general de Adobe y su director de confianza.

Este año, Snap actualizó su política de privacidad sobre los datos recopilados por My AI, su chatbot de IA con el que los usuarios pueden mantener conversaciones.

Un portavoz de Snap dijo que la empresa daba "avisos por adelantado" sobre cómo utilizaba los datos para entrenar a su IA con el consentimiento de sus usuarios.

En septiembre, la plataforma social X añadió una única frase a su política de privacidad sobre el aprendizaje automático y la IA. La empresa no devolvió la solicitud de comentarios.

El mes pasado, Meta alertó a sus usuarios de Facebook e Instagram en Europa que utilizaría el contenido público de sus plataformas para entrenar a su IA a partir del miércoles, lo que provocó algunas reacciones negativas. Después, la empresa suspendió sus planes, luego de que el Centro Europeo de Derechos Digitales presentara denuncias contra la compañía en once países europeos.

En Estados Unidos, donde las leyes de privacidad son menos estrictas, Meta ha podido utilizar el contenido público de las redes sociales para entrenar a su IA sin que se produjera ese nivel de alerta. La empresa anunció en septiembre que la nueva versión de su gran modelo de lenguaje se había entrenado con datos de usuarios con los que no se había entrenado su iteración anterior.

Meta ha declarado que su IA no leía los mensajes enviados entre amigos y familiares en aplicaciones como Messenger y WhatsApp a menos que un usuario etiquetara a su chatbot de IA en un mensaje.

"El uso de información pública para entrenar modelos de IA es una práctica generalizada en el sector y no es exclusiva de nuestros servicios", señaló un portavoz de Meta mediante un comunicado.

Muchas empresas también están añadiendo a sus condiciones de uso una cláusula que protege sus contenidos de la piratería para entrenar a la IA de la competencia.

A medida que las empresas tratan de entrenar a sus modelos de inteligencia artificial con datos protegidos por leyes de privacidad, están reescribiendo con cuidado sus términos y condiciones. Seis columnas de texto separadas con anotaciones en rojo, tachado o verde para ilustrar los cambios recientes en las condiciones de servicio de Google, Adobe, Snap y otras empresas.

Guardar