Meta lanza una inteligencia artificial para traducir voz a texto en más de 100 idiomas

El modelo de lenguaje podrá reconocer hasta tres idiomas al mismo tiempo

Guardar
El modelo de lenguaje tiene
El modelo de lenguaje tiene filtros para evitar contenido tóxico. (Meta)

Meta presentó su próximo modelo de traducción de voz a texto, que será compatible con casi 100 idiomas, llamado SeamlessM4T. Esta tecnología busca minimizar las limitaciones lingüísticas y permitir el entendimiento simultáneo.

Este sistema también permitirá la tradición de texto a texto y de voz a voz, con una capacidad de reconocer 100 idiomas de entrada y generar resultados en 35 más de salida.

El lanzamiento de este modelo está enfocado en los desarrolladores, ya que esta licencia permite a los expertos colaborar y mejorar el modelo, allanando el camino para futuras innovaciones, por lo que por ahora no se trata de un producto de consumo para los usuarios.

Las novedades del modelo multilenguaje

Una característica notable que distingue a SeamlessM4T es su capacidad para identificar el code-switching, que es un fenómeno lingüístico en el que los hablantes cambian entre dos o más idiomas en una sola oración.

Esta característica es especialmente desafiante para los sistemas de inteligencia artificial, y la inclusión de esta posibilidad es un punto diferente frente a los sistemas actuales del mercado. Para demostrarlo, Meta informó que ya ha sido capaz de diferenciar entre hindi, telugu e inglés en una única oración, lo que promete una mayor exactitud en la traducción en situaciones del mundo real.

El modelo de lenguaje tiene
El modelo de lenguaje tiene filtros para evitar contenido tóxico. (Unsplash)

A diferencia de modelos de traducción anteriores, que dividían el proceso de traducción entre sistemas variados, SeamlessM4T realiza la tarea completa de traducción en un solo paso, lo que representa un avance en la eficiencia y precisión en el entendimiento automático y en tiempo real.

Otro elemento a destacar en el desarrollo de este modelo es su capacidad para identificar palabras tóxicas o sensibles, que según la compañía son aquellas que incitan al odio, la violencia, la profanidad o el abuso. De esta forma garantizan que la traducción no introduzca toxicidad que no estaba presente en el material original.

“Filtramos la toxicidad desequilibrada en los datos de entrenamiento. Si la entrada o la salida contenían cantidades diferentes de toxicidad, eliminábamos esa secuencia de aprendizaje”, publicó la compañía en su anunció.

Además, el equipo de investigación de Meta ha trabajado para mitigar el sesgo de género en las traducciones. SeamlessM4T es capaz de identificar y cuantificar este sesgo, asegurando que las traducciones sean equitativas y no introduzcan conceptos innecesarios.

Por ejemplo, el sistema es capaz de detectar si la persona dijo ‘doctora’ en español y de esa forma asignar un pronombre femenino en un idioma distinto sin una gramática de género equivalente si es necesario, ya que algunas lenguas no tienen en su estructura una distinción de género marcada, como el caso del inglés.

El modelo de lenguaje tiene
El modelo de lenguaje tiene filtros para evitar contenido tóxico. (Meta)

El lanzamiento de este nuevo modelo hace parte de los proyectos que viene mostrando la empresa en el campo de la inteligencia artificial. Hace un tiempo, la compañía presentó modelos y conjuntos de datos como No Language Left Behind y SpeechMatrix, que también permiten la traducción automática.

Estas últimas herramientas también han sido claves en la moderación eficiente del contenido en plataformas como Facebook e Instagram, donde se realizan publicaciones en grandes cantidades idiomas de idiomas.

Otro sistema de IA que ha mostrado Meta recientemente son AudioCraft, que es un código que permite la generación de texto a sonido y que también solo está disponible para desarrolladores. Sumado al acceso a su modelo de lenguaje más grande llamado Llama 2.

Guardar