Investigadores del MIT crearon una tecnología capaz de imaginar el rostro de una persona con tan solo escuchar su voz

Se trata de un sistema de aprendizaje automático llamado Speech2Face que fue entrenado con millones de videos en la web

Guardar
El aprendizaje profundo o deep learning es un conjunto de algoritmos de aprendizaje automático (iStock)
El aprendizaje profundo o deep learning es un conjunto de algoritmos de aprendizaje automático (iStock)

¿La voz puede delatar cómo se ve una persona? Pareciera ser que sí. O al menos esa es la idea detrás de Speech2Face, un sistema de aprendizaje automático capaz de adivinar el rostro de una persona por cómo suena su voz.

Según explican los investigadores del MIT Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Wojciech Matusik, que están detrás de este proyecto, se entrenó una red neuronal para desarrollar esta tarea utilizando millones de videos de miles de personas hablando en YouTube y otros clips publicados en la web.

Durante la fase de entrenamiento, el sistema estableció correlaciones entre los atributos físicos de la persona, como edad, género y grupo étnico y el timbre de su voz.

La inteligencia artificial aprendió esas relaciones y las puede usar para adivinar o intuir cómo es el rostro de una nueva persona con tan solo escuchar un pequeño fragmento de su voz.

Speech2Face es el nombre del sistema de aprendizaje automático capaz de adivinar el rostro de una persona con tan sólo escuchar su voz.
Speech2Face es el nombre del sistema de aprendizaje automático capaz de adivinar el rostro de una persona con tan sólo escuchar su voz.

Cabe destacar que el sistema no es capaz de reconstruir exactamente cómo es el rostro de la persona, sino que tan sólo puede elaborar una imagen que surge de esas relaciones aprendidas.

"Esto se debe a que nuestro modelo está entrenado para capturar las características visuales (relacionadas con edad, género, etc) que son comunes a varios individuos, tan sólo en los casos en los que hay suficiente evidencia para conectar esas características con los atributos en el habla que se encuentran en la base de datos", explican los investigadores en la publicación.

Por eso va a producir imágenes aproximadas en función de estos datos y no una foto detallada y perfecta de un individuo en particular.

Otro punto es que el modelo está diseñado en función de una base de datos que, por más que es amplia, no representa a toda la población que hay en el mundo, con lo cual los resultados van a ser parciales y seguramente requiera mayores ajustes.

Uno de los desafíos dentro del machine learning es contar con una nutrida base de información que sea lo más representativa de la realidad, algo que, muchas veces, es difícil de lograr.

MÁS SOBRE ESTE TEMA:

Guardar