Desde que el ser humano comenzó a utilizar herramientas, ha deseado ir más allá de sus propias limitaciones. Hoy, la inteligencia artificial es la herramienta más avanzada de la que disponemos, y se posiciona como una extensión de nuestra propia inteligencia. Sin embargo, no podemos afirmar que la IA sea una entidad creativa autónoma, ni un co-creador. Es la manifestación amplificada de lo que concebimos, el espejo que refleja nuestras ideas.
En este proceso de iteración entre los humanos y la IA, los prompts juegan un rol esencial. Son más que simples instrucciones para las máquinas; son, en su esencia, el lenguaje a través del cual guiamos a la IA hacia el resultado que deseamos. Modelos como CharGPT o Copilot, han demostrado que la calidad del resultado depende del cuidado con el que el creador moldea sus palabras, afinando la técnica de la descripción precisa. Cuanto mejores sean los prompts, mejores serán los resultados en diferentes tareas.
Para lo cual las técnicas más avanzadas de ingeniería de prompting nos permitirán lograr tareas más complejas. Así, desde el Prompt sin entrenamiento previo, o Zero-shot, o instrucción que no proporciona al modelo ningún ejemplo, hasta el Prompt CoT multimodal o cadenas de pensamiento multimodales, que incorpora texto y visión en un marco de etapas. Los prompts, se han convertido en una forma contemporánea de comunicación, donde el humano sigue siendo el protagonista, manejando los hilos invisibles del resultado de los agentes inteligentes.
Ciberataques mediante clonación de voz con IA
Cuando escuchamos una voz clonada o vemos una imagen generada por IA, no estamos frente a la creación de una máquina autónoma. La voz clonada no tiene una esencia propia, es el acto de la voluntad humana que interactúa con una IA, ya sea para clonar su propia voz o la de un tercero. Por lo cual, y según la evaluación comparativa y la valoración de los investigadores de seguridad de McAfee, para que la ciberdelincuencia pueda utilizar la voz de cualquier persona bastará solo con tres segundos de audio para producir un clon con un 85% de coincidencia de voz con el original.
Siguiendo con el informe de McAfee, sobre 7000 personas encuestadas, una de cada cuatro, expresó había experimentado una estafa de clonación de voz con IA o conocía a alguien que lo había sufrido, el 70% de las personas dijeron que no estaban seguros al intentar distinguir entre una voz clonada y una voz real. Por supuesto, para realizar una clonación siempre será necesario un audio original.
En la actualidad los usuarios de redes publican videos en plataformas como YouTube, comparten clips e incluso pueden participar en podcasts. Por lo cual solo accediendo a fuentes relativamente públicas, los ciberdelincuentes pueden disponer de un arsenal con suficiente material para sus fines.
El “spear phishing”, o ataque dirigido a personas específicas, se nutre de los perfiles públicos de las redes sociales y otros lugares de Internet donde las personas publican sobre sí mismos, sus familias, sus viajes, etc. Con la información que encuentran, pueden utilizar técnicas de ingeniería social para crear ataques excepcionalmente personalizados que engañan al objetivo haciéndole creer que está recibiendo solicitudes o mensajes de audio legítimos. Desde otra mirada, empresas como Respeecher ofrecen increíbles voces clonadas en todas las industrias.
Entre los ejemplos de casos controvertidos y emblemáticos podemos citar el caso del famoso DJ, productor discográfico, músico y compositor sueco Tim Bergling, conocido profesionalmente como Avicii, que murió a los 28 años. Uno de sus colaboradores más conocidos, Aloe Blacc, para rendir homenaje al artista interpretó y grabó el éxito de Avicii “Wake Me Up” en inglés, mandarín, español, italiano y francés. Aloe Blacc recurrió a Respeecher y Metaphysic.ai.
La clonación de voz impulsada por IA de Respeecher permitió sintetizar la voz para producir un sonido que coincidiera con la voz de Blacc, conservando todos los acentos emocionales de la canción que se grabó originalmente pero en tantos idiomas como él deseaba. Otro ejemplo, que ya cuenta con varios años, y es expuesto en la página de Respeecher como caso representativo, es la película In Event of Moon Disaster, un cortometraje documental que explora una realidad alternativa en la que la misión Apolo 11 fracasa y los astronautas Neil Armstrong y Buzz Aldrin mueren en la Luna. Utilizando la tecnología deepfake, el documental recrea un discurso ficticio del expresidente Richard Nixon. La película fue creada por el Centro de Virtualidad Avanzada del MIT y Respeecher, que generó una versión sintética de la voz de Nixon basada en grabaciones de archivo.
Audio de IA en el Parlamento de Taiwán
Muchas son las empresas que en la actualidad ofrecen convertir texto a voz, entre ella ElevenLabs es una empresa de investigación e implementación de audio de IA que anuncia en su página haber utilizado audio de IA en el Parlamento de Taiwán.
En el parlamento de Taiwán, la legisladora Dra. Chen Ching-Hui perdió temporalmente su voz antes de una sesión crucial. Gracias a la tecnología de clonación de voz de ElevenLabs, su colega Dr. Ju Chun Ko y su equipo recurrieron a grabaciones anteriores de la Dra. Chen para crear rápidamente un clon de voz que coincidiera estrechamente con su tono natural. El desafío no solo era tecnológico. Las reglas del parlamento dictan que para que las declaraciones sean incluidas en los registros oficiales, deben ser pronunciadas en voz alta. Por lo que la réplica de su voz, le permitió realizar la interpelación. Este uso pionero de la IA marcó un hito en la historia parlamentaria y abrió debates sobre su aplicación futura en procedimientos legislativos. El Dr. Ko planea enseñar a jóvenes líderes cómo aprovechar esta tecnología en la política.
La inteligencia artificial amplifica nuestras capacidades, pero no nos reemplaza. Como todas las herramientas que la humanidad ha desarrollado, desde el fuego hasta la escritura, la IA refleja y potencia nuestras decisiones, sin ser autónoma. Los prompts que usamos para dirigir estas máquinas son una forma moderna de lenguaje, donde la precisión humana es clave para obtener resultados de calidad. Sin embargo, la creciente sofisticación de estas tecnologías, como la clonación de voz o los deepfakes, abre nuevas fronteras éticas y riesgos de manipulación. La cuestión no es si la IA reemplazará nuestra creatividad, sino cómo elegiremos usarla. Al final, la inteligencia humana sigue siendo el eje central de este proceso, y nuestra responsabilidad es guiarla hacia fines que enriquezcan nuestra sociedad y no la perjudiquen.