ChatGPT no conoce miles de palabras en español, lo que trae errores

El programa de OpenAI desconoce el 20% de términos extraidos del diccionario de la Real Academia Española

Un grupo de científicos españoles pusieron a prueba el conocimiento de ChatGPT sobre el idioma español. (REUTERS/Dado Ruvic)

Un estudio dirigido por un grupo de investigadores de la Universidad Politécnica de Madrid, Universidad Carlos III de Madrid y la Universidad de Valladolid comprobó qué tan bien conoce ChatGPT el idioma español.

Para ello, los científicos desarrollaron una aplicación especial llamada “ChatWords”, que fue una herramienta clave para este estudio pues, se encargó de poner a prueba el chatbot de OpenAI con una serie de más de 90.000 palabras extraídas del diccionario de la Real Academia Española.

Los resultados mostraron que, aunque un hispanohablante promedio reconoce alrededor de 30.000 palabras, ChatGPT presentó errores de comprensión en una fracción considerable de términos en español. Según el análisis hecho por los investigadores, el algoritmo de la plataforma no es tan eficaz como se piensa y que, en realidad, este modelo de inteligencia artificial desconoce aproximadamente el 20% de palabras en español que fueron probadas.

Algoritmos diseñados para manejar el idioma español enfrentan obstáculos notables, según estudio. (REUTERS/Florence Lo)

El profesor Javier Conde de la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT) de la Universidad Politécnica de Madrid, uno de los investigadores involucrados, subrayó las deficiencias que se observaron en la revisión: “Vemos que hay un porcentaje no despreciable en que el sentido que señala es incorrecto y que quizás ChatGPT no sea hoy en día tan sabio como aparenta”.

De igual forma, Conde indicó que aunque ChatGPT tenga acceso a grandes bases de datos disponibles en internet, aun tiene capacidades limitadas cuando se trata de expresarse en otro idioma que no sea el inglés (su idioma nativo).

Aunque los hispanohablantes reconocen en promedio 30.000 palabras, el desafío de ChatGPT para igualar el conocimiento humano es considerable. El resultado de la investigación de las instituciones también impacta en el mundo laboral, donde la efectividad de la inteligencia artificial en tareas que requieren un manejo sofisticado del idioma puede ser cuestionada.

En general, hay otras inteligencias artificiales que tampoco pueden funcionar correctamente con otros idiomas e incluso no pueden reproducirlo. Este es el caso de Stable Diffusion o Dall-E, que por el momento no pueden generar imágenes en la que se pueda mostrar texto legible.

Inteligencia artificial realizó el Test de Turing para determinar qué tan precisa es al momento de intentar imitar a un humano. (Microsiervos)

Qué tan parecido es el comportamiento de ChatGPT con respecto a un humano

Otro estudio reciente publicado por la Universidad de Cornell (Estados Unidos) y que pone a prueba la capacidad de distintos programas de inteligencia artificial para superar el llamado “Test de Turing”, una evaluación en la que se pone a prueba a una computadora y su capacidad para imitar el comportamiento de un humano.

Por medio de un chat virtual, las 652 personas que formaron parte del estudio tuvieron que completar hasta 1.810 evaluaciones y determinar si las respuestas a una serie de preguntas fueron generadas por un humano o por una inteligencia artificial que intenta imitar a uno.

Los investigadores, Cameron Jones y Benjamin Bergen, usaron una selección de hasta 25 grandes modelos de lenguaje (LLM) diferentes que incluyeron a las diferentes versiones de ChatGPT, incluido GPT-4, además de otros programas, quienes fueron sometidos a esta evaluación y dieron como resultado una cercanía máxima de 41% a un comportamiento similar a una persona real.

La evaluación, que consistió en que los humanos interactúen con un chat por un periodo máximo de 5 minutos y con mensajes de una extensión no superior a 300 caracteres, indicó que una inteligencia artificial clásica, como la denominada ELIZA, solo pasa el test un 27% de las veces, mientras que modelos como GPT-3.5 (creado por OpenAI) apenas superan el 14%.