Aumentan los casos de voces clonadas con inteligencia artificial para cometer extorsiones

Esta tecnología permite estrategias de ciberdelincuencia difíciles de detectar. Se emplea para suplantar identidades, robar información y extorsionar, en entornos digitales y físicos

Guardar
La nueva técnica depende de la IA para clonar la voz de una persona a la que los criminales hacen pasar por secuestrada. (Getty Images).
La nueva técnica depende de la IA para clonar la voz de una persona a la que los criminales hacen pasar por secuestrada. (Getty Images).

“¡Mamá! ¡Lo arruiné!”, gritó la voz de una adolescente. Jennifer DeStefano reconoció a Brie, su hija de 15 años, que había salido de viaje, a esquiar con sus amistades. La escuchó suplicar por ayuda: la habían secuestrado en las montañas, dijo.

Los gritos aumentaron el pánico de la mujer. Guardó silencio cuando escuchó las instrucciones del supuesto secuestrador: “Tengo a tu hija. Llamas a la policía, a cualquiera, y le doy algo lleno de drogas. Me saldré con la mía y luego la dejaré en México para que nunca más vuelvan a verse”. El criminal exigió USD 1 millón.

Apenas cortó, DeStefano comenzó a llamar al móvil de Brie, desesperada. Luego de varios esfuerzos fallidos, volvió a escucharla: la muchacha estaba perfectamente bien, libre y tranquila, esquiando.

La voz de Brie había sido clonada con inteligencia artificial (IA) para la primera llamada. Bastaron cuatro minutos —los más largos en la vida de Jennifer— para logar engañar a una persona con este método de extorsión cada vez más frecuente. Frente al problema, las autoridades en Estados Unidos y algunos países de América Latina han comenzado a implementar legislaciones contra el uso de estas herramientas en delitos digitales.

La IA sin regulación en América Latina

La suplantación de identidad es un fenómeno en la ciberdelincuencia que se ha beneficiado de la IA. En la actualidad, esta tecnología es usada para clonar voces de personas comunes, a quienes se hace pasar por secuestrados. La estafa por teléfono se originó en Estados Unidos y alcanzó su auge en 2022, cuando 5.000 víctimas pagaron USD 8.8 millones en promedio, de acuerdo con la Comisión Federal de Comercio (FTC) de ese país.

 Los presuntos secuestradores también conocen los datos personales de quien extorsionan. Las pérdidas económicas en Estados Unidos alcanzan USD 8.8 millones con 5.500 víctimas. (Eunice Adorno/Cuartoscuro).
Los presuntos secuestradores también conocen los datos personales de quien extorsionan. Las pérdidas económicas en Estados Unidos alcanzan USD 8.8 millones con 5.500 víctimas. (Eunice Adorno/Cuartoscuro).

Tanto en América Latina como alrededor del mundo, las empresas que desarrollan la IA capaz de clonar voces aún carecen de regulaciones al respecto. No existen precedentes legales: eso significa que el mal uso de esta tecnología aún tiene libre el camino libre cometer fraudes. El dinero de las extorsiones ha tenido un margen de recuperación mínimo.

Respecto a los ciberdelitos en general, la región se encuentra en un nivel medio de prevención al contar con estrategias y capacitación profesional contra sus técnicas. El caso de Uruguay es notable, debido a su desarrollo en materia de ciberseguridad. A este país se suman Chile, Argentina, México, Colombia, Costa Rica, Paraguay, República Dominicana y Trinidad y Tobago, que tiene una política de defensa nacional, según el reporte del Banco Interamericano de Desarrollo (BID) y la Organización de Estados Americanos (OEA).

No obstante, la región comparte una legislación vaga en cuanto al uso de la IA para el caso preciso de las extorsiones. En las leyes actuales aún se omiten las condenas para las clonaciones de voz, pues solo se contemplan casos de robo de identidad. Incluso la moderación del uso de esta tecnología está limitada a la investigación y la vulnerabilidad de datos personales, según del Instituto de Ciencias Jurídicas de Puebla.

Estafas con deepfakes de voz van al alza en Estados Unidos

Como pasó con DeStefano, un inversor de Florida vivió un episodio desagradable con las deepfakes de voz. Clive Kabatznik llamó a un representado de Bank of America para resolver algunos problemas relacionados a una transferencia. Luego de esta breve conversación, el representante del banco volvió a responder una llamada de Kabatznik, solo que esta vez la voz había sido replicada por una programa de IA. La estafa, en este caso, fue frustrada debido a que el operador consideró sospechosa la petición de sacar todo el dinero de una cuenta para pasarlo a otra.

Los datos recopilados por los hackers que generan la voz de su víctiman por IA son el factor más peligroso de este método de estafa. (Imagen Ilustrativa Infobae).
Los datos recopilados por los hackers que generan la voz de su víctiman por IA son el factor más peligroso de este método de estafa. (Imagen Ilustrativa Infobae).

Pindrop, entidad privada dedicada a supervisar el tráfico de audio para los bancos más importantes de Estados Unidos, ha identificado un alza de este tipo de fraudes a inicios de 2023. En los últimos la compañía revisó más de 5.000 millones de llamadas a las instituciones bancarias, los resultados fueron alarmantes: se recibieron entre 1.000 y 10.000 intentos de estafa al año, como explicó Vijay Balasubramaniyan, fundador de esta empresa, al diario The New York Times.

El principal blanco de estos ataques son los centros de atención telefónica exclusivos para tarjetas de crédito. Aunque solo un puñado de estos engaños sean generados con IA, el experto explicó que representan un peligro porque algunos operadores carecen de la preparación necesaria para identificar una llamada de este tipo. Si bien la voz puede sonar robótica, los datos que los estafadores poseen, muchas veces información confidencial, generan dudas en los empleados bancarios.

Herramientas de clonación de voz

Los cibercriminales tienen acceso a herramientas en línea para clonar las voces de sus víctimas en inglés. (Igor Stevanovic/Getty Images).
Los cibercriminales tienen acceso a herramientas en línea para clonar las voces de sus víctimas en inglés. (Igor Stevanovic/Getty Images).

Un programa que ganó popularidad es ElevenLabs luego de que un periodista de Vice lo usó para burlar la seguridad de su banco en febrero de 2023. Sin embargo, la herramienta VALL-E se convirtió en una de las más famosas al ser producto de Microsoft. Debido a que fue fabricada con 60.000 horas de audios en inglés guardados en Meta, la compañía de Marck Zuckerberg, su uso está restringido al público: incluso era capaz de imitar el tono de las emociones de los hablantes, según el diario La Vanguardia.

Balasubramaniyan ha identificado que VALL-E se ha convertido en una de las herramientas más factibles y asequibles a la cuales un hacker puede llegar. Lo más alarmante de esta IA es que necesita una muestra de audio de tres segundos para replicar una voz.

A esta lista se une Parrot, otra herramienta con la capacidad de clonar la voz de una persona que hable inglés. El producto es de Play.ht, compañía que nació en 2016 y se especializa en productos para la transcripción del lenguaje de texto a audio, conforme a la información de su sitio web.

Ya existe software de detección de voces generadas con IA, y el campo seguirá evolucionando. Por ahora, se recomienda que ante una ciberextorsión se desconfíe de las comunicaciones de esos supuestos secuestradores o ejecutivos de instituciones bancarias, que lanzan amenazas o dan instrucciones a seguir. El siguiente paso es contactar a la supuesta víctima o al bancos, llamando directamente.

Guardar