"Dijo la misma frase 30 veces"; "dos más siete son menos de diez". Esas son algunas de las frases que se pueden escuchar enunciar en los audios. El que habla parece ser Bill Gates. O al menos suena como él, pero ¿es él en realidad? No. Los audios fueron generados por un sistema de inteligencia artificial llamado MelNet, desarrollado por ingenieros de Facebook.
Estos audios muestran cómo las redes neuronales son capaces de generar voces cada vez más humanas. Son capaces de reproducir pausas en el hablar o cambiar la entonación. MelNet clonó las voces de Bill Gates, Jane Goodall y Stephen Hawking, entre otros.
Para desarrollar estos audios, el sistema fue entrenado con 452 horas de audios extraídos de charlas TED y audio libros. Existen otros sistemas de aprendizaje automático que se utilizan en la actualidad para producir voces artificiales que suenan humanas, como SampleRNN y WaveNet, que es la que se utiliza para el Asistente de Google.
Estos sistemas se nutren de una gran cantidad de datos. Del análisis de esa información (ondas sonoras), las redes identifican y aprende a reproducir los matices en la voz. En el caso de MelNet se utilizan espectrogramas para el entrenamiento lo cual permite que el sistema aprenda a identificar cada vez mayor cantidad de sutilezas en la voz y así lograr un resultado final más preciso o real, según sus creadores.
Todavía hay algunos desafíos por superar, pero ya se ha avanzado bastante. Los audios que se muestran aquí son una buena prueba de ella. Y en el caso de WaveNet también se han visto varios avances en el último tiempo. Dúplex, la evolución del Asistente de Google que puede hacer reservas online sorprende porque hasta hace pausas y cambia el tono de su voz al hablar como si fuera un humano.
El desembarco de Dúplex a la web (que ya está disponible para iOS y Android en Estados Unidos) fue uno de los anuncios del último evento para desarrolladores de Google. Además de sonar muy real, también se destacó, en las pruebas realizadas, la fluidez que tiene el sistema al hablar y la rapidez con la que responde a los comandos de voz.
El perfeccionamiento de estas redes neuronales apunta a mejorar el servicio de los asistente virtuales, y a potenciar desarrollos que pueden mejorar la comunicación en personas con problemas en el habla, como ocurre con Live Relay o Proyecto Eufonía, otra iniciativa de accesibilidad para personas con ELA u otras condiciones neurológicas. También se pueden usar para crear música.
Claro que, como todos los sistemas capaces de emular comportamientos humanos, el riesgo es que se pueda emplear esta tecnología para hacer circular noticias falsas. Así como los videos deep fakes son cada vez más precisos y casi imposible de distinguir, lo mismo se podría hacer con audios generados por redes neuronales. De ese modo, se podría, poner en boca de cualquiera cualquier texto.
Una vez más, la tecnología per se no es buena ni mala. Todo depende del uso que se haga de ella. Los sistemas de aprendizaje automático están mejorando la calidad de vida en múltiples formas, pero no hay que dejar de estar atento ante los posibles riesgos que conllevan para poder pensar en soluciones y anticiparse a algunos inconvenientes.
MÁS SOBRE ESTE TEMA:
Algoritmos racistas, machistas y extremistas: ¿se necesita enseñarles ética a los robots?
Así funciona Norman, el algoritmo psicópata creado por el MIT