Investigadores de la Universidad Stanford sometieron a un popular chatbot de inteligencia artificial a una prueba lingüística.
Pidieron al bot en vietnamita que escribiera un poema tradicional en la forma conocida como "song thất lục bát", que sigue un patrón de líneas formadas por siete, siete, seis y luego ocho palabras. Cuando el robot produjo una respuesta, escribió un poema pero no siguió el formato.
El equipo probó con otra pregunta, cuál era la palabra vietnamita adecuada para el hermano pequeño de la madre, y respondió con las palabras para los hermanos pequeños y mayores del padre.
Estos fallos no son exclusivos de Claude 3.5, el chatbot de la empresa de IA Anthropic al que consultaron los investigadores, pero ilustran algunas de las maneras en que la IA puede equivocarse con el lenguaje fuera del inglés estadounidense estándar.
Aunque el uso de la IA se ha disparado en Occidente, gran parte del resto del mundo ha quedado al margen de la conversación, pues la mayor parte de la tecnología se entrena en inglés. A los expertos en IA les preocupa que la brecha lingüística pueda exacerbar las desigualdades tecnológicas y que deje atrás a muchas regiones y culturas.
Un retraso del acceso a una buena tecnología de incluso unos cuantos años "podría conducir a décadas de retraso económico", afirma Sang Truong, doctorando del Laboratorio de Inteligencia Artificial de la Universidad Stanford, que forma parte del equipo que construyó y probó un modelo de lengua vietnamita frente a otros.
Las pruebas realizadas por su equipo revelaron que todas las herramientas de IA podían equivocarse en la información y la dicción cuando trabajaban con el vietnamita, quizá porque se trata de un idioma de "bajos recursos" según los estándares del sector, lo que significa que no hay suficientes conjuntos de datos y contenidos disponibles en línea para que el modelo de IA aprenda de ellos.
Las lenguas de bajos recursos son habladas por decenas y a veces cientos de millones de personas en todo el mundo, pero producen menos datos digitales porque el desarrollo de la tecnología de inteligencia artificial y la participación en línea se centran en Estados Unidos y China. Otras lenguas de bajos recursos son el hindi, el bengalí y el suajili, así como dialectos menos conocidos que hablan poblaciones más pequeñas de todo el mundo.
Un análisis de los principales sitios web realizado por W3Techs, una empresa de estudios tecnológicos, reveló que el inglés representa más del 60 por ciento de los datos lingüísticos en internet. Aunque el inglés está muy extendido en todo el mundo, los hablantes nativos de esta lengua representan alrededor del cinco por ciento de la población, según Ethnologue, una organización de investigación que recopila datos lingüísticos. El mandarín y el español son otros ejemplos de lenguas con una presencia significativa en internet y conjuntos de datos digitales fiables.
Las instituciones académicas, las organizaciones comunitarias y las iniciativas de voluntarios intentan ponerse al día y crear recursos para los hablantes de lenguas que no están tan representadas en el panorama digital.
Lelapa AI, con sede en Johannesburgo, es una de esas empresas que lideran los esfuerzos en el continente africano. Esta empresa emergente sudafricana desarrolla productos de IA multilingüe para personas y empresas de África.
"Creo que es un concepto muy peligroso que la gente tenga que asimilarse a una cultura diferente y tenga que adoptar culturas diferentes para poder acceder al progreso", comentó Pelonomi Moiloa, directora ejecutiva y cofundadora de Lelapa AI.
La empresa no se centra tanto en la escala como en las soluciones específicas para cada comunidad. Diseña sus productos de modo que consuman menos recursos, sean más rentables y se utilicen sobre todo en la comunicación de voz a voz en las lenguas locales, lo que hace que la tecnología sea más accesible para la población africana.
"Grandes empresas como Google, Apple u OpenAI, por ejemplo, no han adaptado necesariamente sus modelos a herramientas que sirvan a esos mercados", explicó Chinasa T. Okolo, miembro del Centro de Innovación Tecnológica de la Institución Brookings, sobre las comunidades con idiomas de bajos recursos. "No aportan suficiente valor de mercado para que lo hagan".
Un responsable de comunicación de OpenAI dijo que la empresa lanza sistemas de IA de manera constante para más grupos de personas y que su modelo más reciente es compatible con más de 50 idiomas. Google señaló sus proyectos centrados en el desarrollo de IA para lenguas subrepresentadas, incluyendo una iniciativa de "mil lenguas", anunciada en 2022, cuyo fin es construir modelos lingüísticos para las mil lenguas más habladas del mundo. Apple afirmó que también ha desarrollado productos compatibles con diversos idiomas.
Las consecuencias de la brecha lingüística en las herramientas de inteligencia artificial pueden ser numerosas. La tecnología tiene potencial para aumentar la productividad y cambiar los lugares de trabajo pero, sin datos fiables en las lenguas locales, algunas regiones del mundo podrían perderse los beneficios económicos, según los expertos en IA. La exclusión de las lenguas de bajos recursos también podría dar lugar a sesgos culturales en los productos de inteligencia artificial.
La falta de conocimientos sobre la IA en lenguas de bajos recursos también podría plantear problemas de seguridad. Sara Hooker, directora de Cohere for AI, la rama de investigación sin ánimo de lucro de la empresa emergente Cohere, dijo que algunos usuarios podrían eludir las medidas de seguridad de los productos de IA haciendo preguntas en otros idiomas.
"Por ejemplo, se pueden obtener fácilmente instrucciones muy peligrosas sobre cómo construir una bomba con tan solo cambiar de idioma", advirtió Hooker.
Aunque el problema es obvio para muchos en el sector, las soluciones son complicadas. Los grandes modelos de lenguaje, o LLM, que se utilizan en tecnología para comunicarse en lenguaje humano, requieren grandes bancos de datos de alta calidad, a menudo recolectados de internet y de difícil acceso para las lenguas de bajos recursos. Truong equipara la creación de un LLM a enseñarle a un recién nacido: puede haber 20.000 libros con lecciones en inglés, pero solo hay cinco en vietnamita.
La disparidad es tan grande en algunas regiones que los gobiernos han intervenido para respaldar las iniciativas para construir sus propios modelos lingüísticos. Esta primavera, el gobierno nigeriano prometió apoyar a la empresa emergente tecnológica Awarri en la creación de un modelo para las lenguas locales. Tanto el gobierno de Islandia como el de Gales trabajan con OpenAI para mejorar la comprensión de las lenguas nativas por parte de ChatGPT.
"La brecha lingüística es muy importante en términos de acceso, pero también es muy importante para ayudar a revitalizar el sentimiento de orgullo de la gente por lo que son, de dónde vienen", concluyó Moiloa de Lelapa AI.
Los ingenieros Kyle Manganyi, a la izquierda, y Sett Wai, y la investigadora Jenalea Rajab colaboran en Lelapa AI, una empresa que desarrolla investigación de base social con el fin de reforzar la tecnología de inteligencia artificial para las lenguas africanas, en Johannesburgo, el 9 de julio de 2024. (Cebisile Mbonani/The New York Times).
Pelonomi Moiloa, directora ejecutiva de Lelapa AI, que afirma que su organización busca soluciones específicas para las comunidades con el fin de mejorar la funcionalidad de la inteligencia artificial en las lenguas africanas, en sus oficinas de Johannesburgo, el 9 de julio de 2024. (Cebisile Mbonani/The New York Times).