Las voces por Inteligencia Artificial (AI por sus siglas en inglés) de Alexa, Siri y la asistente de Google son probablemente las más famosas en el mundo, y aunque han ido mejorando con el paso de los años, les faltan aspectos del habla humana que se escapan a la limitación sintética.
Aunque los actores de AI pueden ofrecer voces fluidas, y de cierto modo naturales, para las presentaciones, las actuaciones más complejas como dramatismo o una risa en un momento preciso siguen quedando fuera de su alcance.
Ante ello, algunas empresas han estado trabajando para lograr avances en las voces de Inteligencia Artificial, logrando una voz sintética que puede expresar burlas y hasta coqueteo.
La startup Sonantic, especializada en el ramo, desarrolló una voz que tiene algunas sutilezas que la hacen más natural en el modo de hablar. Señalaron para The Verge, que la clave es la incorporación de sonidos que no son del habla en su audio; entrenando sus modelos de IA para recrear esas pequeñas tomas de aliento (diminutas burlas y risas medio ocultas) que le dan al habla real su sello de autenticidad biológica.
“Nuestro objetivo de investigación era ver si podíamos modelar emociones sutiles. Las emociones más grandes son un poco más fáciles de capturar”, dijo el cofundador y CTO de Sonantic, John Flynn al citado medio.
En este proyecto eligieron “el amor como tema general”, por lo que la AI coquetea con quien está interactuando con ella.
Quienes “platicaron” con la AI señalan que al escucharla por primera vez suena como una voz humana, aunque después se notan los matices de que es un robot, ya que dicen, tiene “extraños espacios que quedan entre ciertas palabras y una ligera arruga sintética en la pronunciación”.
En un video de la compañía publicado en YouTube titulado “What’s Her Secret?” (¿Cuál es su secreto?) se escucha a una mujer asegurando estar enamorada, sin embargo, más tarde pregunta si aún sabiendo que nunca nació y nunca morirá podría ser amada (por quien la escucha). En ese momento la imagen de una joven se transforma y aparecen los comandos de voz que son interrumpidos por expresiones como “respira” o “ríe”, aspectos que la dotan de cierta naturalidad.
Si bien esas pausas rellenadas por respiros, similares a los que hacemos los humanos, hacen que se escuche natural, en algunas ocasiones se asoma la parte sintética de la AI.
Según Zeena Qureshi, directora ejecutiva de Sonantic, su software es como un “Photoshop para voz”. La interfaz permite a los usuarios escribir el discurso que desean sintetizar, especificar el estado de ánimo de la entrega y luego seleccionar entre un elenco de voces de IA, la mayoría de las cuales se copian de actores humanos reales.
Su competencia, Descript también tiene una oferta similar con paquetes de voces de varios actores humanos, aunque depende del usuario elegir cuál le gusta más según su nivel de personalización.
Sonantic incluye en las voces de IA emociones como ira, miedo, tristeza, felicidad, alegría y, con la más reciente actualización, coqueta, tímida, burlona y jactanciosa. Un “modo de director” permite aún más ajustes: el tono de una voz se puede ajustar, la intensidad de la entrega se puede marcar hacia arriba o hacia abajo, y esas pequeñas vocalizaciones que no son de habla, como risas y respiraciones, se pueden insertar.
Los principales clientes de la compañía son estudios de videojuegos, estudios de entretenimiento y próximamente abarcarán nuevas industrias. Una de las últimas asociaciones fue con Mercedes para personalizar a su asistente en el automóvil.
Las voces con IA se han hecho cada vez más necesarias y cotidianas, pero aún tienen una característica robótica, no obstante, quizá en un momento alcancen un nuevo nivel de personalización e interacción como las de películas de ciencia ficción.
SEGUIR LEYENDO