Google trae más de 100 nuevos idiomas a su traductor gracias a la Inteligencia Artificial

La plataforma quiere ampliar sus opciones, especialmente en lenguas indígenas y dialectos casi extintos

Guardar
La plataforma usa modelos de
La plataforma usa modelos de aprendizaje para entender idiomas que no conoce y relaciona con otros. (Google)

Google incorporó 110 nuevos idiomas a su servicio de traducción, Google Translate, utilizando su modelo de inteligencia artificial PaLM 2. Esta expansión es la más grande realizada hasta la fecha en la plataforma y permitirá a más de 614 millones de personas acceder a traducciones en su lengua materna, especialmente al dar acceso a lenguas indígenas y dialectos casi extintos.

La tecnología usada para esta expansión ha sido implementada desde 2022, aunque en ese momento se añadieron apenas 24 idiomas usando el sistema Zero-Shot Machine Translation, un modelo de aprendizaje automático que puede traducir a un nuevo idioma sin haber visto ejemplos previos. Pero con la reciente ampliación, el objetivo de la plataforma es llegar a los 1.000 idiomas, con el objetivo de respaldar las lenguas más habladas en todo el planeta.

Cómo funciona la IA para agregar idiomas en Google Translate

La clave de esta expansión reside en el modelo de lenguaje grande PaLM 2, una IA que permite a Google Translate aprender nuevos idiomas de manera más eficiente, especialmente aquellos que están estrechamente relacionados entre sí. Este modelo ha sido fundamental para lograr la inclusión de 110 nuevos idiomas en el traductor, superando todas las expansiones anteriores.

La plataforma usa modelos de
La plataforma usa modelos de aprendizaje para entender idiomas que no conoce y relaciona con otros. (Google)

PaLM 2 funciona utilizando técnicas de aprendizaje automático y redes neuronales profundas para analizar y comprender las estructuras y reglas de los idiomas. A través de enormes cantidades de datos lingüísticos y ejemplos de traducción, el modelo puede captar patrones y relaciones entre palabras y frases en diferentes lenguas.

Esto le permite generar traducciones precisas y coherentes incluso en idiomas que no han sido extensamente documentados o digitalizados.

La selección de nuevos idiomas para Google Translate no es un proceso sencillo. La empresa tiene en cuenta una variedad de factores, incluyendo las variedades regionales, los dialectos y los diferentes estándares de ortografía.

Muchos idiomas no tienen una forma estándar única, lo que hace imposible escoger una “variedad correcta”. La estrategia de Google ha sido priorizar las variedades más comúnmente utilizadas de cada idioma para alcanzar al mayor número de hablantes posible.

Google usa modelos de aprendizaje
Google usa modelos de aprendizaje para entender idiomas que no conoce y relaciona con otros. (Imagen ilustrativa Infobae)

Por ejemplo, el romani es un idioma con muchos dialectos en toda Europa. Los modelos de la plataforma producen texto más cercano al romani vlax meridional, una variedad comúnmente usada en línea, pero también incorpora elementos de otras variantes, como el romani vlax septentrional y el romani balcánico.

Para asegurar la calidad y precisión de las traducciones, Google colabora con lingüistas expertos y hablantes nativos. Esta colaboración es crucial para comprender las sutilezas y particularidades de cada idioma, y para desarrollar modelos que puedan manejar estas complejidades.

Además, aproximadamente una cuarta parte de los nuevos idiomas añadidos provienen de África, lo que representa la mayor expansión de lenguas africanas hasta la fecha. Idiomas como el fon, kikongo, luo, ga, swati, venda y wolof ahora están disponibles en Google Translate, ampliando el acceso a estas lenguas.

Google usa modelos de aprendizaje
Google usa modelos de aprendizaje para entender idiomas que no conoce y relaciona con otros. (GOOGLE)

Ejemplos de nuevos idiomas en Google Translate

  • Afar: un idioma tonal hablado en Djibouti, Eritrea y Etiopía. Afar destaca por haber recibido la mayor cantidad de contribuciones comunitarias voluntarias.
  • Cantonés: uno de los idiomas más solicitados para Google Translate. Su escritura a menudo se superpone con el mandarín, lo que presenta desafíos únicos para la recopilación de datos y el entrenamiento de modelos.
  • Manx: la lengua celta de la Isla de Man, que casi se extinguió con la muerte de su último hablante nativo en 1974. Gracias a un movimiento de revitalización a nivel de la isla, ahora cuenta con miles de hablantes.
  • Nko: una forma estandarizada de las lenguas mandingas de África occidental, unificando muchos dialectos en un idioma común.
  • Punjabi (Shahmukhi): la variante del punjabi escrita en escritura perso-arábiga, siendo el idioma más hablado en Pakistán.
  • Tamazight (Amazigh): una lengua bereber hablada en el norte de África, escrita tanto en alfabeto latino como en tifinagh, ambos soportados por Google Translate.
  • Tok Pisin: una lengua franca de Papúa Nueva Guinea basada en el inglés. Los hablantes de inglés pueden intentar traducir al tok pisin y posiblemente entenderán el significado.
Guardar