En los últimos años, los modelos de lenguaje de inteligencia artificial se han vuelto muy buenos en ciertas tareas. En particular, sobresalen en predecir la siguiente palabra en una cadena de texto; esta tecnología ayuda a los motores de búsqueda y las aplicaciones de mensajes de texto a predecir la siguiente palabra que vas a escribir.
La generación más reciente de modelos de lenguaje predictivo también parece aprender algo sobre el significado subyacente del lenguaje. Estos modelos no solo pueden predecir la palabra que viene a continuación, sino que también pueden realizar tareas que parecen requerir cierto grado de comprensión genuina, como la respuesta a preguntas, el resumen de documentos y la finalización de la historia.
Dichos modelos se diseñaron para optimizar el rendimiento de la función específica de predecir texto, sin intentar imitar nada sobre cómo el cerebro humano realiza esta tarea o entiende el lenguaje. Pero un nuevo estudio de neurocientíficos del MIT sugiere que la función subyacente de estos modelos se asemeja a la función de los centros de procesamiento del lenguaje en el cerebro humano. Los modelos informáticos que funcionan bien en otros tipos de tareas del lenguaje no muestran esta similitud con el cerebro humano, lo que ofrece evidencia de que el cerebro humano puede usar la predicción de la siguiente palabra para impulsar el procesamiento del lenguaje.
“Cuanto mejor es el modelo para predecir la siguiente palabra, más se ajusta al cerebro humano. Es sorprendente que los modelos se ajusten tan bien, y sugiere muy indirectamente que quizás lo que está haciendo el sistema de lenguaje humano es predecir lo que sucederá a continuación “, explicó Nancy Kanwisher, profesora de neurociencia cognitiva Walter A. Rosenblith, miembro del Instituto McGovern de Investigación del Cerebro y del Centro de Cerebros del MIT. Minds and Machines (CBMM) y autora del nuevo estudio.
Los nuevos modelos de predicción de la siguiente palabra de alto rendimiento pertenecen a una clase de modelos denominados redes neuronales profundas que contienen “nodos” computacionales que forman conexiones de diferente intensidad y capas que pasan información entre sí de formas prescritas. Durante la última década, los científicos han utilizado redes neuronales profundas para crear modelos de visión que pueden reconocer objetos tan bien como lo hace el cerebro de los primates. La investigación en el MIT también ha demostrado que la función subyacente de los modelos de reconocimiento de objetos visuales coincide con la organización de la corteza visual de los primates, aunque esos modelos informáticos no fueron diseñados específicamente para imitar el cerebro.
Joshua Tenenbaum, profesor de ciencia cognitiva computacional en el MIT y miembro del CBMM y del Laboratorio de Inteligencia Artificial del MIT y Evelina Fedorenko, profesora asociada de neurociencia Frederick A. y Carole J. Middleton Career Development y miembro del Instituto McGovern, son los autores principales del estudio, que aparece esta semana en las Actas de la Academia Nacional de Ciencias. Martin Schrimpf, un estudiante graduado del MIT que trabaja en CBMM, es el primer autor del artículo.
En el nuevo estudio, el equipo del MIT utilizó un enfoque similar para comparar los centros de procesamiento del lenguaje en el cerebro humano con modelos de procesamiento del lenguaje. Los investigadores analizaron 43 modelos de lenguaje diferentes, incluidos varios optimizados para la predicción de la siguiente palabra. Estos incluyen un modelo llamado GPT-3 (Transformador 3 preentrenado generativo), que, dado un aviso, puede generar texto similar al que produciría un humano. Otros modelos fueron diseñados para realizar diferentes tareas de lenguaje, como llenar un espacio en blanco en una oración.
Como cada modelo se presentó con una serie de palabras, los investigadores midieron la actividad de los nodos que componen la red. Luego compararon estos patrones con la actividad en el cerebro humano, medida en sujetos que realizan tres tareas del lenguaje: escuchar historias, leer oraciones una a la vez y leer oraciones en las que se revela una palabra a la vez. Estos conjuntos de datos humanos incluyeron datos de resonancia magnética funcional (fMRI) y mediciones electrocorticográficas intracraneales tomadas en personas sometidas a cirugía cerebral por epilepsia.
Descubrieron que los modelos de predicción de la siguiente palabra con mejor rendimiento tenían patrones de actividad que se parecían mucho a los observados en el cerebro humano. La actividad en esos mismos modelos también estaba altamente correlacionada con medidas de comportamiento humano, como la rapidez con la que las personas podían leer el texto. “Hallamos que los modelos que predicen bien las respuestas neuronales también tienden a predecir mejor las respuestas del comportamiento humano, en forma de tiempos de lectura. Y luego ambos se explican por el rendimiento del modelo en la predicción de la siguiente palabra. Este triángulo realmente conecta todo junto”, precisó Schrimpf.
“Una conclusión clave de este trabajo es que el procesamiento del lenguaje es un problema muy restringido: las mejores soluciones que los ingenieros de IA han creado terminan siendo similares, como muestra este documento, a las soluciones encontradas por el proceso evolutivo que creó el cerebro humano. Dado que la red de inteligencia artificial no buscó imitar el cerebro directamente, pero termina pareciendo un cerebro, esto sugiere que, en cierto sentido, se ha producido una especie de evolución convergente entre la inteligencia artificial y la naturaleza”, indicó Daniel Yamins, profesor de psicología e informática en la Universidad de Stanford, que no participó en el estudio.
Cambiador de juego
Una de las características computacionales clave de los modelos predictivos como GPT-3 es un elemento conocido como transformador predictivo unidireccional directo. Este tipo de transformador es capaz de hacer predicciones de lo que vendrá a continuación, basándose en secuencias anteriores. Una característica importante de este transformador es que puede hacer predicciones basadas en un contexto previo muy largo (cientos de palabras), no solo en las últimas palabras. Los científicos no han encontrado ningún circuito cerebral o mecanismo de aprendizaje que corresponda a este tipo de procesamiento, dice Tenenbaum. Sin embargo, los nuevos hallazgos son consistentes con las hipótesis que se han propuesto previamente de que la predicción es una de las funciones clave en el procesamiento del lenguaje.
Los investigadores ahora planean construir variantes de estos modelos de procesamiento del lenguaje para ver cómo los pequeños cambios en su arquitectura afectan su rendimiento y su capacidad para adaptarse a los datos neuronales humanos. “Para mí, este resultado ha cambiado las reglas del juego”, dijo Fedorenko. “Está transformando totalmente mi programa de investigación, porque no habría predicho que en mi vida llegaríamos a estos modelos computacionalmente explícitos que capturan lo suficiente sobre el cerebro para que podamos aprovecharlos para comprender cómo funciona el cerebro”.
Los investigadores también planean tratar de combinar estos modelos de lenguaje de alto rendimiento con algunos modelos de computadora que el laboratorio de Tenenbaum ha desarrollado previamente y que pueden realizar otros tipos de tareas, como construir representaciones perceptivas del mundo físico. “Si somos capaces de entender lo que hacen estos modelos de lenguaje y cómo pueden conectarse con modelos que hacen cosas que se parecen más a percibir y pensar, entonces eso nos puede dar modelos más integradores de cómo funcionan las cosas en el cerebro. Esto podría llevarnos hacia mejores modelos de inteligencia artificial, además de brindarnos mejores modelos de cómo funciona más parte del cerebro y cómo surge la inteligencia general, que los que hemos tenido en el pasado”, concluyó Tenenbaum.
Joshua Tenenbaum, profesor de ciencia cognitiva computacional en el MIT y miembro del CBMM y del Laboratorio de Inteligencia Artificial del MIT y Evelina Fedorenko, profesora asociada de neurociencia Frederick A. y Carole J. Middleton Career Development y miembro del Instituto McGovern, son los autores principales del estudio, que aparece esta semana en las Actas de la Academia Nacional de Ciencias. Martin Schrimpf, un estudiante graduado del MIT que trabaja en CBMM, es el primer autor del artículo.
SEGUIR LEYENDO: