Hace muchos años que la inteligencia artificial viene logrando hazañas sorprendentes. Pilotear aviones, mejorar los diagnósticos médicos, o jugar al ajedrez mejor que el campeón del mundo.
Pero reconocer o producir lenguaje es una tarea bien distinta. Porque el lenguaje, como la música, sucede en el tiempo. Decía la filósofa Susanne Langer que la música es el laboratorio para sentir en el tiempo y algo parecido sucede con las ideas y el lenguaje; la información se expresa de manera secuencial, una palabra detrás de otra, y el sentido de muchas palabras solo puede entenderse de acuerdo con el contexto en que se utilizan: qué viene antes y qué después.
Por eso la comprensión del lenguaje está plagada de contexto, de cosas no dichas que se presuponen, y de expectativas que se construyen en el tiempo presente con la información del pasado. Podemos entenderlo con el ejemplo de nuestro amigo Juli Garbulsky: “Es increíble cómo la gente se sorprende cuando una frase no termina exactamente como ellos lechuga”. “Lechuga” funciona en esa frase como una nota desafinada, una entrada que está fuera de las expectativas que el cerebro ha ido construyendo, a la velocidad vertiginosa en la que se suceden las palabras en una frase.
Para resolver este problema, a principios de este siglo se utilizó un tipo de red neuronal llamado “redes neuronales recurrentes” (RNN), que incorporaban un mecanismo de memoria. Sin embargo, los avances fueron lentos y tortuosos.
La solución llegó en 2017, de la mano de un artículo publicado por investigadores de la Universidad de Toronto, financiado por Google, simpáticamente titulado Attention is all you need, en alusión a la célebre canción de los Beatles. Y como ya había hecho la mismísima banda de Liverpool en el mundo de la música, este artículo dio comienzo a una nueva era.
Lo curioso es que la idea que iba a cambiar el mundo era relativamente simple: para entender una frase no es necesario recordar todo el contexto, sino elegir bien a qué datos o conceptos mencionados antes es importante prestar atención. “Atención”, ahí está la clave. Es todo lo que se necesita. En este artículo seminal se introdujo una nueva arquitectura llamada “transformer”, que incorpora justamente un algoritmo para decidir cuánto peso darle a diferentes elementos de la secuencia o, en otras palabras, a qué prestar más atención.
El objetivo de este artículo era mejorar la traducción automática entre idiomas y ni sus autores ni Google vislumbraron el impacto descomunal que tendría hacia adelante: con este hallazgo, se completaba la última pieza que faltaba para el boom actual de la IA.
Los que sí detectaron rápidamente el potencial de este nuevo tipo de arquitectura para una red neuronal fueron los investigadores de una compañía que recién comenzaba llamada OpenAI. Su cerebro científico, Ilya Sutskever, seguramente pase a la historia, para bien o para mal, como uno de los artífices detrás del demorado arribo de las inteligencias artificiales realmente poderosas.
Envalentonado por el potencial de los transformers, se propuso hacer un experimento: ¿Qué pasaría si hiciéramos una red neuronal ”generativa, “preentrenada” y basada en “transformers”? Basta unir las iniciales para ver que el experimento fue exitoso. Así nació GPT.
A partir de este hallazgo, la IA se volvió increíblemente efectiva para entender qué palabra va con cuál y, al captar de manera profunda la relación entre las palabras, adquirió un conocimiento equivalente a entender la gramática del lenguaje. Justamente, fue el algoritmo de atención de los transformers el que le permitió disponer del contexto necesario de cada palabra en la memoria para lograr este objetivo. Y esto se hizo no para uno, sino para al menos 30 idiomas diferentes.
Entendiendo de esta manera la lógica profunda que subyace detrás de la lengua, GPT puede construir frases increíblemente humanas, prescindiendo de la semántica (saber qué significa cada palabra). Dicho de otra manera, ha aprendido a hablar con un estilo increíblemente humano y a decir cosas interesantes y de gran trascendencia, sin tener la menor idea de lo que está diciendo.
Con el crecimiento descomunal en el tamaño de la red y sus parámetros, nació un nuevo tipo de IA. A las redes neuronales basadas en transformers, entrenadas con enormes volúmenes de texto para producir lenguaje se las bautizó como LLM (Large Language Models), es decir, Grandes Modelos de Lenguaje. Y parece que el tamaño en esto sí importa. Porque estos nuevos modelos comenzaron a mostrar resultados completamente sorprendentes, ¡incluso para sus propios creadores!
Con el aumento de escala de los LLM, se abrieron puertas fascinantes e inesperadas. Podemos pensar qué sucede con la adquisición del lenguaje en el desarrollo de un bebé. Aun cuando en los primeros meses de vida se logran aprendizajes extraordinarios, todo ese proceso cognitivo adquiere una progresión explosiva cuando un chico consigue combinar arbitrariamente todas sus facultades gracias al uso del lenguaje.
Por eso, a ningún padre o madre se le escapa que, cuando su hijo empieza a hablar, hay todo un universo nuevo que se abre y el vínculo cambia de manera profunda, impulsado por la amplia ventana de posibilidades que dan las palabras. El uso del lenguaje permite saber a los padres por qué llora su hijo y qué le duele, y sienten una enorme y grata sorpresa cuando este argumenta por primera vez por qué quiere hacer algo, o cuando expresa sus dudas, anhelos, miedos o sueños.
Los humanos no somos mejores que el resto de los animales en el reconocimiento de objetos. Nuestra gran singularidad está en el vínculo con el lenguaje. Por eso, los LLM generan una revolución en la IA similar a la que ocurre en la inteligencia humana cuando un niño comienza a balbucear las primeras palabras.
Es que el lenguaje es la materia de la que está hecho el pensamiento humano. Cuando una IA aprende a generar lenguaje, en cierta manera está aprendiendo a pensar, aun cuando por ahora no haya en la máquina un ente que sea sujeto de ese pensamiento. Una vez más, sin saber nada del significado de las palabras, logra armar un discurso novedoso, interesante, profundo y coherente, aun cuando en realidad el programa no tiene ni idea de lo que está diciendo.
Así como nuestros hijos dicen cosas sorprendentes, que a nosotros nunca se nos hubiesen ocurrido, las IA empiezan ya también a encontrar atributos que les permiten superarnos en algunos aspectos de la lengua. Somos contemporáneos de esa transformación y por eso, en algún punto, también somos ese padre o esa madre que es testigo fascinado de cómo un niño comienza a pensar al articular las primeras palabras. Las sorpresas recién comienzan.