Deep fake: cómo es la tecnología que les hace decir lo que no dijeron a políticos y celebridades

Con big data y un sistema de aprendizaje automático se lograron generar videos a partir de una foto

Guardar

Con un nutrido set de datos, inteligencia artificial e imaginación parecería no haber imposibles: se puede crear, recrear, inventar lo que sea. Al menos digitalmente. Un grupo de investigadores logró "hacer hablar" a Marilyn Monroe, Salvador Dalí y hasta Mona Lisa. ¿Cómo? Los convirtieron en retratos vivientes.

Egor Zakharov, Aliaksandra Shysheya, Egor Burkov y Victor Lempitsky desarrollaron un sistema que permite crear videos realistas a partir de una sola imagen. De ese modo lograron "traer a la vida" a varios íconos de la cultura.

En la investigación, publicada hace unos días, los especialistas explican que utilizaron, en primera instancia, un sistema de meta aprendizaje, donde redes neuronales recibieron entrenamiento a partir de una gran cantidad de videos.

En este caso se empleó la base de datos pública VoxCeleb que contiene más de 7.000 imágenes de personas hablando en YouTube; y un millón de expresiones de esos rostros en diferentes contextos: riendo, cambiando de pose, haciendo gestos, moviendo las cabezas, etc.

A partir de una foto
A partir de una foto lograron hacer videos.

Este set de datos sirvió para entrenar al sistema y que identificara características clave del rostro humano en distintas posiciones y ángulos. ¿Y cómo logra hacer esto la inteligencia artificial? El sistema de aprendizaje detrás de este proyecto son las redes generativas antagónicas (GAN, por sus siglas en inglés).

Se trata de dos redes neuronales que compiten entre sí para lograr un resultado cada vez más realista. Hay una red que es el generador y produce imágenes; y otra red que es el discriminado y se encarga de adivinar, al ver esas imágenes, si son reales (porque vienen del set de datos de entrenamiento) o si son falsas (producidas por el generador).

En una primera etapa, el sistema
En una primera etapa, el sistema aprende a identificar características de los rostros que luego utiliza para crear otros modelos.

Esa competencia entre las redes permite ir optimizando el resultado y lograr imágenes o videos cada vez más realistas. Esto ocurre en la primera instancia que los investigadores denominaron meta aprendizaje. Lo novedoso es que luego, ese aprendizaje se traspola a otros casos y así el sistema es capaz de generar, en una segunda instancia, un video a partir de una sola imagen.

Las implicancias de esta investigación dan que pensar. Por un lado, queda claro que cada vez hay más herramientas disponibles para generar deep fakes, uno de los grandes desafíos en el mundo de la información. Hay decenas de videos falsos creados con este tipo de tecnología: Obama criticando a Donald Trump o Mark Zuckerberg haciendo declaraciones polémicas sobre los datos y la privacidad son apenas dos de los tantos ejemplos.

El video con declaraciones que Mark Zuckerberg nunca hizo

Los investigadores, sin embargo, explican que este tipo de tecnología busca mejorar la comunicación humana en entornos de realidad virtual y aumentada. "En los futuros sistemas de telepresencia, la gente necesitará ser representada por retratos realitos de ellos mismos, y crear dichos avatares debe ser sencillo para los usuarios", remarcan al pie del video publicado.

Si bien entiende la preocupación por los deep fakes, remarcan que este tipo de trabajos busca democratizar las tecnologías utilizadas para generar efectos especiales. Será cuestión de esperar y ver. Lo que no puede negarse es que la tecnología sigue avanzando y con ella sus beneficios y desafíos.

MÁS SOBRE ESTE TEMA:

Falsificación sin límites: el video que une el cuerpo de Jennifer Lawrence con la cara de Steve Buscemi

Clonaron la voz de Bill Gates con un sistema de inteligencia artificial y suena muy real

Guardar