SAN FRANCISCO -- ChatGPT, el tan utilizado chatbot, se diseñó para generar texto digital, desde poesía hasta ensayos de fin de curso o programas de computadora. Sin embargo, cuando un equipo de investigadores de inteligencia artificial de la empresa de chips para computadora Nvidia obtuvo la tecnología subyacente del chatbot, se dio cuenta de que esta podía hacer mucho más.
En pocas semanas, le enseñaron a jugar "Minecraft", uno de los videojuegos más populares del mundo. En el universo digital de "Minecraft", aprendió a nadar, recolectar plantas, cazar cerdos, extraer oro y construir casas.
"Puede entrar en el mundo de 'Minecraft', explorar por sí solo, recoger materiales por su cuenta y mejorar cada vez más en todos los tipos de habilidades", mencionó un científico de investigación sénior de Nvidia, Linxi Fan, conocido como Jim.
El proyecto fue un primer indicio de que los principales investigadores del mundo en inteligencia artificial están transformando a los chatbots en un nuevo tipo de sistema autónomo llamado agente de inteligencia artificial. Estos agentes pueden hacer algo más que chatear. Pueden utilizar aplicaciones de software, sitios web y otras herramientas en línea, incluidas hojas de cálculo, calendarios en línea, sitios de viajes y mucho más.
Según muchos investigadores, con el tiempo, los agentes de inteligencia artificial podrían llegar a ser mucho más sofisticados y remplazar a los oficinistas, pues se automatizaría casi cualquier trabajo de oficina.
"Es una enorme oportunidad comercial, podrían ser billones de dólares", afirmó Jeff Clune, profesor de Informática en la Universidad de Columbia Británica, quien trabajó anteriormente en este tipo de tecnología como investigador en OpenAI, la empresa emergente de San Francisco que creó ChatGPT. "Esto tiene enormes ventajas --y consecuencias enormes-- para la sociedad".
El agente de Nvidia juega un juego. Agentes similares pueden programar reuniones, editar archivos, analizar datos y construir gráficas de barras multicolores. La idea es que estos sistemas automatizados en algún momento actúen como asistentes personales capaces de manejar una amplia gama de tareas en todo el internet.
Los agentes actuales son limitados y no pueden organizarte la vida precisamente. ChatGPT puede buscar vuelos a Nueva York en el sitio de viajes Expedia, pero tú tienes que hacer la reservación por tu cuenta.
Esta tecnología, a medida que los investigadores la perfeccionen, podría volver más eficientes a los oficinistas y a los consumidores. También podría cambiar la naturaleza de los videojuegos, pues podría producir una nueva ola de bots con los que los jugadores podrían jugar y chatear.
GPT-4, la tecnología en la que se basa ChatGPT, es lo que los investigadores llaman un gran modelo lingüístico. Es un sistema de inteligencia artificial que aprende habilidades mediante el análisis de enormes cantidades de datos.
En los últimos meses, la tecnología ha asombrado a cientos de millones de personas por la manera en que genera correos electrónicos, escribe discursos e improvisa sobre casi cualquier tema. No obstante, tal vez su habilidad más importante sea la de escribir programas de computadora.
En un instante, puede generar un programa que dibuje un unicornio o deje caer nieve digital por la pantalla de tu computadora portátil. Los desarrolladores profesionales de software pueden pedir código para integrarlo en programas más amplios, desde aplicaciones de redes sociales hasta motores de búsqueda. Sin embargo, eso solo es una parte de lo que puede hacer esta tecnología. También puede generar código para otras aplicaciones y sitios web.
Así es como Fan y otros investigadores de Nvidia le enseñaron a GPT-4 a jugar "Minecraft". "La palabra más importante aquí es código", explicó Fan. "El código puede actuar".
Las personas utilizan las aplicaciones de software y los sitios web tocando botones, menús y otros artilugios gráficos. Los agentes de inteligencia artificial utilizan las aplicaciones y los sitios web entrando en sus interfaces de programación de aplicaciones (API, por su sigla en inglés), el código de software subyacente que les permite comunicarse con otros servicios en línea.
Por ejemplo, si le pides a un agente que suba un video a internet, podría generar un código que le llame a una API que ofrezca YouTube. "Una API es tan solo un texto que se utiliza para hablar con una máquina", comentó Silen Naihin, un investigador que ayuda a dirigir un proyecto independiente de agentes de inteligencia artificial, AutoGPT.
En teoría, un chatbot puede escribir código para tener acceso a cualquier API en internet. Sin embargo, los chatbots actuales tan solo tienen la pericia para hacer tareas sencillas. E incluso si tuvieran la pericia necesaria, dejarlos vagar con libertar por el internet sería un enorme riesgo para la seguridad. Por lo tanto, las empresas están empezando poco a poco.
Unos meses después de que OpenAI develó ChatGPT, lanzó discretamente un mecanismo para que el chatbot hiciera algo más que generar texto. Tras instalar varios "complementos" --software que aumenta lo que puede hacer el bot--, podrías pedirle que busque vuelos disponibles en sitios de viajes como Expedia, que elija un mapa de tu ciudad en Google Earth o incluso que transforme una hoja de cálculo donde se detallen tus gastos anuales en una gráfica de barras multicolor.
ChatGPT, el cual está equipado con un complemento llamado intérprete de código, no solo pudo escribir código, sino también ejecutarlo. Esto permitió que la tecnología realice al instante tareas que antes no podía, incluido editar hojas de cálculo y transformar imágenes fijas en videos. Google, Microsoft y otras empresas están explorando tecnologías similares.
"En esencia, son proyectos en los que concebimos que haya inteligencias artificiales trabajando entre sí en tu nombre", explicó Ashley Llorens, un vicepresidente de Microsoft.
Los proyectos independientes como AutoGPT intentan llevar varios pasos más allá este tipo de cosas. La idea es darle objetivos al sistema como "crear una empresa" o "ganar dinero". De esta manera, buscará el modo de alcanzar ese objetivo haciéndose preguntas y conectándose a otros servicios de internet.
En la actualidad, esto no funciona tan bien. Sistemas como AutoGPT tienden a atascarse en bucles interminables. No obstante, los investigadores como Fan perfeccionan todo el tiempo este tipo de tecnología para hacerla más útil y confiable.
Otros investigadores están construyendo un nuevo tipo de agente de inteligencia artificial diseñado para utilizar herramientas de software. En el verano de 2022, Clune fue parte de un equipo de investigadores de OpenAI que crearon un agente capaz de utilizar programas de computadora como lo haría una persona: clic a clic, tecleo a tecleo.
Clune arguye que este tipo de agente en algún momento permitirá que la inteligencia artificial utilice una gama mucho más amplia de aplicaciones de software y sitios web. Comentó que todo el mundo tendría acceso a un asistente digital que en potencia podría hacer casi cualquier cosa en internet. Eso podría facilitar más la vida pero también podría remplazar una infinidad de puestos de trabajo.
"Si la inteligencia artificial puede hacer cualquier cosa que nosotros podamos hacer, no solo remplaza las tareas aburridas", comentó. "Sustituye todas las tareas".
Los objetos y las piezas de ajedrez en la oficina de Jeff Clune son una creación de inteligencia artificial impresos en 3D. (Alana Paterson/The New York Times)
Un pizarrón blanco en la oficina de Jeff Clune. (Alana Paterson/The New York Times)