Quién es el científico que lidera la revolución creativa de las máquinas

Ian Goodfellow desarrolló GAN, una novedosa técnica que le permite a la inteligencia artificial inventar desde voces o rostros humanos hasta edificios. En el futuro se podría usar para diseñar medicamentos. El especialista, que trabaja en Google, recibió a Infobae en su oficina en Mountain View para hablar sobre esta tecnología y su alcance

Guardar
Ian Goodfellow desarrolló una innovadora
Ian Goodfellow desarrolló una innovadora técnica  de aprendizaje automático no supervisado

(Mountain View, enviada especial). Ian Goodfellow es científico investigador de Google en el departamente de Investigación y aprendizaje de las máquinas. Dentro de la comunidad científica es reconocido porque desarrolló una innovadora técnica llamada redes generativas antagónicas (GAN, por sus siglas en inglés) que les permite a las máquinas generar contenido original y súper realista. Casi como si fueran humanos. Y lo más impactante es que logran llegar a este estado a través de entrenamiento no supervisado.

Goodfellow podría considerarse una suerte de rockstar en el mundo de la tecnología, pero a él no le gusta ese mote. Dice que estos logros no se le pueden atribuir solo a una persona, sino que son el resultado de un trabajo en equipo y remarca que si bien él tuvo la idea original, otros colegas ayudaron a que el concepto terminara de tomar forma.

La idea surgió en 2014 después de un debate con unos compañeros de universidad en un bar. "Unos amigos estaban trabajando en un proyecto donde había un generador que medía varias estadística de datos reales y de muestras, y querían asegurarse de que todas estas estadísticas fueran las mismas: en los datos reales y en las muestras generadas", contó en diálogo con Infobae.

En ese entonces ya se habían comenzado a usar redes neuronales para generar nuevos datos, pero los resultados no eran tan buenos: los productos generados por las máquinas se veían poco reales o tenían errores. Goodfellow propuso poner a competir dos redes neuronales, algo que para sus colegas parecía poco viable.

"Quería probar que tenía razón así que me fui del bar y codifique las dos soluciones de la red neuronal. Escribí el código a la madrugada, les mandé un mail a mis compañeros y luego armamos un documento juntos".

Los colegas con los que escribió el ensayo son Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville y Yoshua Bengio. Todos figuran como autores del ensayo donde quedó plasmado el nacimiento formal de GAN que hoy permite generar imágenes y videos con un nivel de autenticidad que sorprende.

Estas imágenes fueron creadas a
Estas imágenes fueron creadas a través de GAN en el marco de un proyecto que llevó adelante Nvidia. Son celebridades inventadas por la inteligencia artificial

Y esto es apenas el comienzo de una serie de aplicaciones que ya están surgiendo. Hoy en día GAN se utiliza para diseñar coronas dentales y, en el futuro, se podría emplear para idear por completo una casa: desde el exterior y hasta sus interiores.

Goodfellow recibió a Infobae en las oficinas centrales de Google en Mountain View, donde pasa gran parte del tiempo teniendo asesorando a expertos y haciendo capacitaciones en machine learning. Dijo que le gusta su trabajo, aunque reconoce que extraña pasar varias horas escribiendo código, tal como hacía en sus comienzos.

—¿Cómo funciona GAN?

—Básicamente son dos redes que compiten entre ellas, y mientras compiten, están forzadas a mejorar en el juego al que juegan. Una de las redes es el generador y es el que crea las imágenes o cualquier otro dato que se quiera crear; y la otra red es el discriminador: mira una imagen y trata de adivinar si se trata de una imagen real, que viene de los datos de entrenamiento, o de una imagen falsa que viene del generador. Entonces si, por ejemplo, se empieza con una colección de imágenes de perros y se quiere entrenar al generador para que haga imágenes de perros, al comienzo el generador va a hacer imágenes al azar, que se verán como ruido estático, como el de una TV analógica vieja. Y el discriminador va a darse cuenta de si es un perro es real y viene del set de datos para el entrenamiento o si es ruido estático que viene del generador y que es falso. Al entrenarlas, el generador logra hacer imágenes que engañan al discriminador. Entonces, al principio, el generador hará bien los colores. Hará imágenes verdes y marrones porque la mayoría de las imágenes son de perros marrones en pasto verde y el generador será engañado por un rato. Y luego el discriminador aprenderá a buscar las formas de perros, y entonces el generador deberá hacer bien las formas para engañar al discriminador. Es un proceso donde cada una de las redes va mejorando y aprende de su oponente, y eventualmente se puede utilizar teoría del juego para analizar esta solución. Se puede probar que hay un equilibro de Nash donde el generador brinda datos que lucen igual que la data de entrenamiento, y el discriminador no puede notar la diferencia entre real y falso. Pero esto se logra en teoría, en la vida real todavía se nota si una imagen es real o no. Todavía no se llegó a ese estado.

—¿La mayoría de las redes neuronales se entrenan con GAN?

—No. La mayoría de las redes neuronales se entrenan con aprendizaje supervisado, que es cuando se quiere hacer algo y uno tiene una entrada (input) y hay una salida (output) que se quiere automatizar. Por ejemplo, se puede buscar a una foto y que el sistema diga "hay un gato" en esta foto. En el aprendizaje no supervisado se le pide a una máquina que vea una serie de estas fotos y que descubra el concepto de gatos y perros a su manera y aprenda a categorizar las imágenes. Y eso no funciona del todo bien. Casi no hay uso del aprendizaje no supervisado en la industria ,aunque sí hay muchos ensayos sobre el aprendizaje no supervisado. Gran parte de lo que hacemos en Google y en otras industrias es el aprendizaje supervisado, es decir: se hace un set de datos con millones de fotos y se las categoriza diciendo "esto es un gato" o "esto es un perro" y estudiando la forma en que uno categoriza los datos. La computadora aprenda a replicar esa misma forma de categorización.

—Pero dentro de lo que es aprendizaje no supervisado, ¿qué otras técnicas se usan además de GAN?

—Hay muchas formas de encarar el aprendizaje no supervisado, las tres más populares son GAN, otra son las redes autorregresivas, que usamos en Google para WaveNet (una red neuronal para generar audio) que potencia, por ejemplo, Google Assistant; y también está el autoencoder variacional (VAE). En la actualidad usamos aprendizaje no supervisado no para categorizar cosas, sino para generar datos que se asemejan a los datos ingresados. Entonces, por ejemplo, WaveNet es un modelo que usamos en Google para crear discurso realista para que el teléfono o Google Assistant pueda hablar contigo. Eso está basado en un algoritmo de aprendizaje no supervisado que estudia varias horas de actores leyendo transcripciones y aprende cómo leer transcripciones y hacer ondas que suenen parecido a las ondas vocales en el entrenamiento.

En el proyecto Everybody Dance
En el proyecto Everybody Dance se usa deep learning para generar pasos de baile

—¿Qué otros usos se le da a estos sistemas de aprendizaje profundo?

—Vemos modelos de aprendizaje profundo que pueden crear fotos y videos. Hay un ensayo que se llama Everybody Dance Now (Todos bailen ahora) donde usan deep learning para ver el video de una persona bailando y luego toman fotos tuyas o de tu amigo y generan un video tuyo o de tu amigo que copia los movimientos de baile de la persona del video. Así que si no eres muy bueno bailando, como yo, está muy bueno tener un video tuyo imitando los pases de algún videoclip musical que te gusta. También hay redes neuronales que pueden dibujar caricaturas, y está WaveNet, que ya mencioné, que puede generar discursos. O sea que se usa para multimedia. Lo que más me emociona y una de las razones por las cuales quise hacer GAN es que estos modelos tienen el potencial de generar objetos que podemos usar en el mundo real. Hay una compañía que se llama Glidewell que hace coronas dentales usando GAN, que permite diseñar la corona e imprimirla en 3D de manera inmediata. No hay demora porque es rápido y se obtiene una corona realista que va con la forma de tus dientes en particular.

—¿Qué otros usos se le podría dar en el futuro?

—En el futuro creo que GAN se va a usar en varias disciplinas, como para hacer mejores medicinas, para el diseño de medicamentos, también podremos ver que se usará GAN para diseñar mejores secuencias de ADN, para convertir secuencias de ADN en proteínas y usarlas en medicina. Vimos algunas aplicaciones así en una empresa en Toronto llamada Insilico Medicine. Se podría usar GAN para diseñar chips más rápidos, autos más eficientes, edificios que sean más resistentes a los terremotos, o que sean más económicos de construir. Toda esta tecnología es muy incipiente, por ahora es difícil que un sistema de deep learning funcione. Se necesita un experto que lo realice, no es algo que se puede esperar que funcione solo en cualquiera aplicación, pero a medida que vayamos mejorando, espero ver esta tecnología cada vez en más áreas. Y empezará a ser algo que facilitará la vida y hará que diferentes industrias sean más eficientes. Por ahora es más que nada una herramienta de entretenimiento.

—Usted dice que hay fallas, pero yo vi imágenes creadas usando GAN y parecen bastante reales. ¿Qué es lo que no funciona entonces?

—Para las imágenes sí funciona, pero si se las quiere usar para diseñar nuevos procesadores para computadoras o edificios no son automáticas como para tomar un modelo y decir "diseñame un buen edificio". Se han escrito miles de ensayos en los últimos cuatro años sobre este tema. Todavía no son tan automáticas como para ser usadas en cualquier tarea y pretender que funcionen.

—¿Qué hace falta mejorar? ¿Por qué es tan difícil que funcione?

—Muchas cosas tienen que mejorar. Cuando se corren estos sistemas hay varias configuraciones y es difícil saber el valor de cada configuración para que trabaje en un problema en particular. Mucho de lo que hace el humano es cambiar la forma en que el modelo está configurando hasta que comienza a funcionar, y eso puede llevar semanas o un mes. Si alguien no tiene suficiente experiencia le puede llevar incluso más tiempo. El otro punto es que ahora es muy fácil para las computadoras representar imágenes. Hacemos una cuadrícula de números que dice cuánto brillo tiene que tener cada píxel en la imagen, pero es mucho más difícil para la computadora representar algo como un edificio. No tenemos una buena manera para que la computadora piense cómo ubicar todos los elementos, no se puede representar un edificio como una serie de números en una cuadrícula. Necesitamos diseñar nuevas formas para que la computadora pueda pensar cómo encajan los objetos a gran escala y que la forma del edificio tengan sentido y también representarlo a pequeña escala donde todos los tornillos encajen de manera adecuada.

MÁS SOBRE ESTE TEMA: 

Guardar