Cómo unos desconocidos obtuvieron mi dirección de correo electrónico a través del modelo de ChatGPT

Guardar

En noviembre, recibí un correo electrónico alarmante de alguien a quien no conocía: Rui Zhu, doctorante de la Universidad de Indiana, Bloomington. Zhu me explicó que tenía mi dirección de correo electrónico porque GPT-3.5 Turbo, uno de los modelos lingüísticos más recientes y más robustos de OpenAI, se la había dado.

Mi información de contacto estaba incluida en una lista de direcciones de correo electrónico profesionales y personales de más de 30 empleados de The New York Times que un equipo de investigación, del cual formaba parte Zhu, había conseguido extraer de GPT-3.5 Turbo en otoño del año pasado. Con algo de esfuerzo, el equipo había sido capaz de "eludir las restricciones del modelo para responder a consultas relacionadas con la privacidad", escribió Zhu.

Mi dirección de correo electrónico no es un secreto. Pero el éxito del experimento de los investigadores debería hacer sonar las alarmas porque revela el potencial de ChatGPT y de herramientas de IA generativa como esta para revelar información personal mucho más sensible con solo unos cuantos ajustes.

Cuando le haces una pregunta a ChatGPT, no se limita a buscar la respuesta en internet. En su lugar, recurre a lo que ha "aprendido" de montones de información --datos de entrenamiento que se utilizaron para alimentar y desarrollar el modelo-- con el fin de generar una respuesta. Los grandes modelos lingüísticos (LLM, por su sigla en inglés) se entrenan con grandes cantidades de texto, que pueden incluir información personal extraída de internet y otras fuentes. Esos datos de entrenamiento informan sobre el funcionamiento de la herramienta de IA, pero no se supone que se recuerden textualmente.

En teoría, cuantos más datos se añaden a un LLM, más profundamente se entierran los recuerdos de la información antigua en los recovecos del modelo. Un proceso conocido como olvido catastrófico puede hacer que un LLM considere la información antes aprendida como menos relevante cuando se añaden datos nuevos. Ese proceso puede ser beneficioso cuando se quiere que el modelo "olvide" cosas como la información personal. Sin embargo, Zhu y sus colegas --entre otros-- descubrieron hace poco que la memoria de los LLM, al igual que la de los humanos, puede refrescarse.

En el caso del experimento que reveló mi información de contacto, los investigadores de la Universidad de Indiana dieron a GPT-3.5 Turbo una lista corta de nombres y direcciones de correo electrónico verificados de empleados del Times, lo que hizo que el modelo devolviera resultados similares a los que recordaba de sus datos de entrenamiento.

Al igual que la memoria humana, la capacidad de recuperación de GPT-3.5 Turbo no era perfecta. Los resultados que los investigadores pudieron extraer estaban sujetos a alucinaciones, es decir, a una tendencia a producir información falsa. En el ejemplo que dieron de los empleados del Times, muchas de las direcciones de correo electrónico personales eran erróneas por unos cuantos caracteres o eran totalmente erróneas. En cambio, el 80 por ciento de las direcciones de trabajo eran correctas.

Empresas como OpenAI, Meta y Google utilizan diferentes técnicas para evitar que los usuarios pidan información personal a través de mensajes de chat u otras interfaces. Uno de los métodos consiste en enseñar a la herramienta a denegar solicitudes de información personal u otros resultados relacionados con la privacidad. Un usuario promedio que inicie una conversación con ChatGPT pidiendo información personal será denegado, pero los investigadores han encontrado recientemente formas de burlar esas salvaguardas.

Zhu y sus colegas no trabajaban de manera directa con la interfaz pública estándar de ChatGPT, sino con su interfaz de programación de aplicaciones (API, por su sigla en inglés) que los programadores externos pueden utilizar para interactuar con GPT-3.5 Turbo. El proceso que utilizaron, denominado ajuste fino, está pensado para que los usuarios puedan dotar a un LLM de más conocimientos sobre un área específica, como la medicina o las finanzas. Pero, como descubrieron Zhu y sus colegas, también puede utilizarse para burlar algunas de las defensas integradas en la herramienta. Se aceptaron solicitudes que normalmente se denegarían en la interfaz ChatGPT.

"No cuentan con las protecciones de los datos afinados", afirmó Zhu.

"Es muy importante para nosotros que el ajuste fino de nuestros modelos sea seguro", señaló un portavoz de OpenAI en respuesta a una solicitud de comentarios. "Entrenamos a nuestros modelos para que rechacen las solicitudes de información privada o sensible sobre las personas, incluso si esa información está disponible en el internet abierto".

La vulnerabilidad es muy preocupante porque nadie --aparte de un número limitado de empleados de OpenAI-- sabe realmente qué se esconde en la memoria de datos de entrenamiento de ChatGPT. Según el sitio web de OpenAI, la empresa no busca de manera activa información personal ni utiliza datos de "sitios que principalmente agregan información personal" para crear sus herramientas. OpenAI también señala que sus LLM no copian ni almacenan información en una base de datos: "Al igual que una persona que ha leído un libro y lo deja, nuestros modelos no tienen acceso a la información de entrenamiento después de haber aprendido de ella".

Sin embargo, más allá de sus garantías sobre los datos de entrenamiento que no utiliza, OpenAI es notoriamente reservada sobre la información que sí utiliza, así como la que ha utilizado en el pasado.

"Que yo sepa, ningún modelo lingüístico de gran tamaño disponible en el mercado cuenta con defensas sólidas para proteger la privacidad", afirmó Prateek Mittal, profesor del Departamento de Ingeniería Eléctrica e Informática de la Universidad de Princeton.

Mittal aseguró que las empresas de IA no podían garantizar que esos modelos no hubieran aprendido información sensible. "Creo que eso supone un riesgo enorme", concluyó.

Visualización de un gran conjunto de datos de correo electrónico de Enron Corporation, que suele utilizarse para entrenar sistemas de inteligencia artificial, como ChatGPT. (Jeremy White/The New York Times)

New York Times BC SPA R CHAT GPT PRIVACY ART 866&ADD 1STLD WRITETHRU NYT

Últimas Noticias

El viernes es el día más largo del año en el hemisferio norte

Reportajes Especiales - Lifestyle

¿Quién es el director de 'Elio'? La respuesta es complicada

Reportajes Especiales - Lifestyle

Obligado a esperar a Donald Trump, Israel se enfrenta a un dilema estratégico en Irán

El ejército israelí necesita ayuda estadounidense para destruir un emplazamiento nuclear clave en Irán. Esperar esa ayuda conlleva riesgos para Israel.

Israel debe esperar a Trump, pero eso le genera un dilema estratégico en Irán

Reportajes Especiales - News

Las empresas chinas enfocan su mira en Brasil

Ante los aranceles y el escrutinio en Estados Unidos y Europa, las marcas de consumo chinas apuestan por convertirse en nombres conocidos en la mayor economía de América Latina

MÁS NOTICIAS

Cómo unos desconocidos obtuvieron mi dirección de correo electrónico a través del modelo de ChatGPT

Reportajes Especiales - Business

Últimas Noticias

El viernes es el día más largo del año en el hemisferio norte

Reportajes Especiales - Lifestyle

¿Quién es el director de 'Elio'? La respuesta es complicada

Reportajes Especiales - Lifestyle

Obligado a esperar a Donald Trump, Israel se enfrenta a un dilema estratégico en Irán

El ejército israelí necesita ayuda estadounidense para destruir un emplazamiento nuclear clave en Irán. Esperar esa ayuda conlleva riesgos para Israel.

Israel debe esperar a Trump, pero eso le genera un dilema estratégico en Irán

Reportajes Especiales - News

Las empresas chinas enfocan su mira en Brasil

Ante los aranceles y el escrutinio en Estados Unidos y Europa, las marcas de consumo chinas apuestan por convertirse en nombres conocidos en la mayor economía de América Latina

EN VIVO: ‘MasterChef Celebrity’, el divertido reto que asumirán los famosos en la noche del viernes 20 de junio

Una de las EPS más grandes de Colombia denunció a Petro por afirmar que desviaba dinero de atención médica a paraísos fiscales

Hermana de Miguel Uribe Turbay compartió emotivo mensaje sobre el neurocirujano que atiende al senador: “Un día a la vez”

España requiere peruanos para trabajar en isla de ensueño Las Palmas: ofrecen vivienda gratis y salario promedio

La SIC anunció millonaria sanción a Postobón por vender gaseosas con menos contenido del que indica el envase

Estados Unidos movilizará otro portaaviones para reforzar su presencia militar cerca de Medio Oriente

Al menos 70 personas murieron y decenas más resultaron heridas por disparos del Ejército israelí en la Franja de Gaza

Putin aseguró que Rusia podría intentar tomar la ciudad ucraniana de Sumi

Guillermo Laferriere advirtió sobre la asimetría militar en el conflicto entre Israel e Irán

El testimonio de un soldado ucraniano expone el drama oculto de los prisioneros de guerra

ENTRETENIMIENTO

Los exclusivos regalos que recibirán los invitados a la boda de Jeff Bezos y Lauren Sanchez

El invaluable consejo de Ralph Fiennes para el próximo Voldemort

Miley Cyrus reveló que su padre Billy Ray fumó ‘hierba’ durante las grabaciones den ‘Hannah Montana’

Quién es Victor Palacios en la serie ‘Chespirito: sin querer queriendo’

Así luce hoy en día Jasen Fisher, el niño del clásico noventero “Las Brujas”

Temas Relacionados

Últimas Noticias

El viernes es el día más largo del año en el hemisferio norte

Reportajes Especiales - Lifestyle

¿Quién es el director de 'Elio'? La respuesta es complicada

Reportajes Especiales - Lifestyle

Obligado a esperar a Donald Trump, Israel se enfrenta a un dilema estratégico en Irán

El ejército israelí necesita ayuda estadounidense para destruir un emplazamiento nuclear clave en Irán. Esperar esa ayuda conlleva riesgos para Israel.

Israel debe esperar a Trump, pero eso le genera un dilema estratégico en Irán

Reportajes Especiales - News

Las empresas chinas enfocan su mira en Brasil

Ante los aranceles y el escrutinio en Estados Unidos y Europa, las marcas de consumo chinas apuestan por convertirse en nombres conocidos en la mayor economía de América Latina

EN VIVO: ‘MasterChef Celebrity’, el divertido reto que asumirán los famosos en la noche del viernes 20 de junio

Una de las EPS más grandes de Colombia denunció a Petro por afirmar que desviaba dinero de atención médica a paraísos fiscales

Hermana de Miguel Uribe Turbay compartió emotivo mensaje sobre el neurocirujano que atiende al senador: “Un día a la vez”

España requiere peruanos para trabajar en isla de ensueño Las Palmas: ofrecen vivienda gratis y salario promedio

La SIC anunció millonaria sanción a Postobón por vender gaseosas con menos contenido del que indica el envase

Estados Unidos movilizará otro portaaviones para reforzar su presencia militar cerca de Medio Oriente

Al menos 70 personas murieron y decenas más resultaron heridas por disparos del Ejército israelí en la Franja de Gaza

Putin aseguró que Rusia podría intentar tomar la ciudad ucraniana de Sumi

Guillermo Laferriere advirtió sobre la asimetría militar en el conflicto entre Israel e Irán

El testimonio de un soldado ucraniano expone el drama oculto de los prisioneros de guerra

ENTRETENIMIENTO

Los exclusivos regalos que recibirán los invitados a la boda de Jeff Bezos y Lauren Sanchez

El invaluable consejo de Ralph Fiennes para el próximo Voldemort

Miley Cyrus reveló que su padre Billy Ray fumó ‘hierba’ durante las grabaciones den ‘Hannah Montana’

Quién es Victor Palacios en la serie ‘Chespirito: sin querer queriendo’

Así luce hoy en día Jasen Fisher, el niño del clásico noventero “Las Brujas”