(The Shift)
SAN FRANCISCO -- Una de las cosas más extrañas e inquietantes acerca de los principales sistemas de inteligencia artificial de la actualidad es que nadie --ni siquiera las personas que los construyen-- sabe realmente cómo funcionan.Esto se debe a que los modelos de lenguaje de gran tamaño, el tipo de sistemas de inteligencia artificial que impulsan ChatGPT y otros chatbots populares, no son programados línea por línea por ingenieros humanos, como sucede con los programas informáticos convencionales.En cambio, estos sistemas, en esencia, aprenden por sí solos, al ingerir grandes cantidades de datos, identificar patrones y relaciones en el lenguaje, y luego usar ese conocimiento para predecir las siguientes palabras en una secuencia.Una consecuencia de construir sistemas de IA de esta manera es que es difícil aplicarles ingeniería inversa o solucionar problemas identificando errores de software específicos en el código. En este momento, si un usuario escribe: "¿Qué ciudad estadounidense tiene la mejor comida?" y un chatbot responde: "Tokio", no hay una manera real de comprender por qué el modelo cometió ese error, o por qué la siguiente persona que pregunte podría recibir una respuesta diferente.
El hermetismo de los modelos de lenguaje de gran tamaño no es solo una molestia, sino una de las principales razones por las que algunos investigadores temen que los potentes sistemas de inteligencia artificial puedan convertirse con el tiempo en una amenaza para la humanidad.Después de todo, si no podemos entender lo que sucede dentro de estos modelos, ¿cómo sabremos si pueden usarse para crear nuevas armas biológicas, difundir propaganda política o escribir códigos informáticos maliciosos para ataques cibernéticos? Si sistemas poderosos de inteligencia artificial comienzan a desobedecernos o engañarnos, ¿cómo podremos detenerlos si no podemos entender qué es lo que está causando ese comportamiento?Para abordar estos problemas, un pequeño subcampo de la investigación sobre IA conocido como "interpretabilidad mecanicista" lleva años intentando mirar dentro de las entrañas de los modelos de lenguaje de inteligencia artificial. El trabajo ha sido lento y el progreso ha sido gradual.También ha habido una resistencia cada vez mayor a la idea de que los sistemas de IA representan un gran riesgo. La semana pasada, dos investigadores principales de seguridad de OpenAI, el fabricante de ChatGPT, abandonaron la empresa en medio de un conflicto con los ejecutivos sobre si la empresa estaba haciendo lo suficiente para que sus productos fueran seguros.Pero esta semana, un equipo de investigadores de la empresa de inteligencia artificial Anthropic anunció lo que calificaron como un gran avance, uno que esperan que nos brinde la capacidad de comprender mejor cómo funcionan realmente los modelos de lenguaje de IA y posiblemente evitar que se vuelvan perjudiciales.El equipo resumió sus hallazgos en una publicación de blog llamada "Mapeando la mente de un modelo de lenguaje de gran tamaño".Los investigadores observaron el interior de uno de los modelos de IA de Anthropic --Claude 3 Sonnet, una versión del modelo de lenguaje Claude 3 de la compañía-- y utilizaron una técnica conocida como "aprendizaje de diccionarios" para descubrir patrones en la manera en que las combinaciones de neuronas artificiales (también llamadas nodos), las unidades matemáticas dentro del modelo de IA, se activaron cuando a Claude se le dio la instrucción de hablar sobre ciertos temas. Identificaron aproximadamente 10 millones de estos patrones, a los que llamaron "características" ("features").Descubrieron que una característica, por ejemplo, estaba activa cada vez que se le pedía a Claude que hablara sobre San Francisco. Otras características estaban activas siempre que se mencionaban temas como la inmunología o términos científicos específicos, como el elemento químico litio. Y algunas características estaban vinculadas a conceptos más abstractos, como el engaño o el sesgo de género.También descubrieron que activar o desactivar manualmente ciertas características podía cambiar el comportamiento del sistema de inteligencia artificial o podía hacer que el sistema incluso rompiera sus propias reglas.Por ejemplo, descubrieron que, si forzaban una característica vinculada al concepto de adulación a activarse con más fuerza, Claude respondía con elogios rebuscados y exagerados para el usuario, incluso en situaciones en las que los halagos eran inapropiados.Chris Olah, quien dirigió el equipo de investigación de interpretabilidad de Anthropic, dijo en una entrevista que estos hallazgos podrían permitir a las empresas de IA controlar sus modelos de manera más efectiva."Estamos descubriendo características que podrían darnos datos en cuanto a preocupaciones sobre sesgos, riesgos de seguridad y autonomía", indicó. "Me emociona mucho que podamos convertir estas cuestiones controvertidas sobre las que la gente discute en cosas sobre las que podamos tener un discurso más productivo".Otros investigadores han encontrado fenómenos similares en modelos de lenguaje de tamaño pequeño y mediano. Pero el equipo de Anthropic es de los primeros en aplicar estas técnicas a un modelo de gran tamaño.Jacob Andreas, profesor asociado de informática en el Instituto Tecnológico de Massachusetts, que revisó un resumen de la investigación de Anthropic, lo caracterizó como una señal esperanzadora de que la interpretabilidad a gran escala pueda ser posible."De la misma manera en que comprender aspectos básicos sobre el funcionamiento del cuerpo humano nos ha ayudado a curar enfermedades, comprender cómo funcionan estos modelos nos permitirá reconocer cuando las cosas estén a punto de salir mal y crear mejores herramientas para controlarlas", afirmó.Olah, líder de la investigación de Anthropic, advirtió que si bien los nuevos hallazgos representaban un progreso importante, la interpretabilidad de la IA aún estaba lejos de ser un problema resuelto.Para empezar, dijo, los modelos de IA más grandes probablemente contengan miles de millones de características que representan conceptos distintos, muchas más que los aproximados 10 millones de características que el equipo de Anthropic afirma haber descubierto. Encontrarlas todas requeriría enormes cantidades de potencia informática y sería demasiado costoso para las empresas de IA, excepto para las más ricas.Incluso si los investigadores identificaran cada característica en un modelo de IA de gran tamaño, aún necesitarían más información para comprender todo el funcionamiento interno del modelo. Además, no hay garantía de que las empresas de IA tomen medidas para hacer que sus sistemas sean más seguros.Aun así, Olah afirmó que, incluso abrir un poco estas cajas negras de la IA podría permitir que las empresas, los reguladores y el público en general se sientan más seguros de que estos sistemas pueden controlarse."Hay muchos otros retos por delante, pero lo que parecía más aterrador ya no parece un obstáculo", aseveró.
Las oficinas de Anthropic en San Francisco, el 7 de junio de 2023. (Marissa Leshnov/The New York Times).