El chatbot que millones de personas han utilizado para escribir trabajos finales, código de computadora y cuentos de hadas no solo funciona con palabras. ChatGPT, la herramienta impulsada por inteligencia artificial de OpenAI, también puede analizar imágenes, describir lo que hay en ellas, responder preguntas sobre ellas e incluso reconocer rostros de personas específicas. La esperanza es que, con el tiempo, alguien pueda subir una imagen de un motor de un automóvil averiado o una erupción misteriosa en la piel y ChatGPT pueda sugerir la solución.
Sin embargo, OpenAI no quiere que ChatGPT se convierta en una máquina de reconocimiento facial.
Durante los últimos meses, Jonathan Mosen ha estado entre un grupo selecto de personas con acceso a una versión avanzada del chatbot que puede analizar imágenes. En un viaje reciente, Mosen, un director ejecutivo de una agencia de empleo que es invidente, usó el análisis visual para determinar qué dispensadores en el baño de una habitación de hotel eran champú, acondicionador y gel de ducha. El rendimiento del software de análisis de imágenes fue muy superior al que había usado en el pasado.
“Me informó la capacidad en mililitros de cada botella. Me contó sobre las baldosas en la ducha”, contó Mosen. “Describió todo esto de la manera en que una persona ciega necesita escucharlo. Y con una foto, obtuve exactamente las respuestas que necesitaba”.
Por primera vez, Mosen afirmó que puede “interrogar imágenes”. Dio un ejemplo: el texto que acompañaba una imagen que encontró en las redes sociales la describía como una “mujer con cabello rubio que se ve feliz”. Cuando le pidió a ChatGPT que analizara la imagen, el chatbot dijo que era una mujer con una camisa azul oscuro que se había tomado una selfi en un espejo de cuerpo entero. Mosen pudo hacer preguntas de seguimiento, como qué tipo de zapatos usaba y qué más se veía en el reflejo del espejo.
“Es extraordinario”, dijo Mosen, de 54 años, que vive en Wellington, Nueva Zelanda, y ha mostrado la tecnología en un pódcast que presenta sobre “vivir al máximo a ciegas”.
En marzo, cuando OpenAI anunció GPT-4, el modelo más reciente del software que impulsa su chatbot de IA, la compañía declaró que era “multimodal”, lo que significa que podía responder a instrucciones de texto e imágenes. Si bien la mayoría de los usuarios han podido conversar con el bot solo con palabras, Mosen obtuvo acceso temprano al análisis visual gracias a Be My Eyes, una empresa emergente que suele conectar a usuarios invidentes con voluntarios videntes y brinda servicio al cliente accesible para clientes corporativos. Be My Eyes se asoció con OpenAI este año para probar la “visión” del chatbot antes del lanzamiento de la función al público en general.
Recientemente, la aplicación dejó de brindarle a Mosen información sobre los rostros de las personas, tras alegar que se habían ocultado por razones de privacidad. Mosen se sintió decepcionado, pues sentía que debía tener el mismo acceso a la información que una persona vidente.
El cambio reflejó la preocupación de OpenAI de haber construido algo con un poder que no quería lanzar al público.
La tecnología de la compañía puede identificar principalmente a figuras públicas, como, por ejemplo, personas con una página de Wikipedia, afirmó Sandhini Agarwal, investigadora de políticas de OpenAI, pero no funciona de manera tan completa como las herramientas creadas para encontrar rostros en internet, como las de Clearview AI y PimEyes. Agarwal aseveró que la herramienta puede reconocer en fotos al director ejecutivo de OpenAI, Sam Altman, pero no a otras personas que trabajan en la empresa.
Hacer que una característica de este tipo esté disponible al público impulsaría los límites de lo que generalmente se considera una práctica aceptable por parte de las empresas de tecnología de Estados Unidos. También podría causar problemas legales en varias jurisdicciones, como Illinois y Europa, que exigen que las empresas obtengan el consentimiento de los ciudadanos para usar su información biométrica, incluida la huella facial.
Además, a OpenAI le preocupaba que la herramienta dijera cosas que no debería sobre los rostros de las personas, como determinar su género o estado emocional. OpenAI está descifrando cómo abordar estas y otras preocupaciones de seguridad antes de lanzar la función de análisis de imágenes al público general, afirmó Agarwal.
“Nuestro gran deseo es que esta sea una conversación bidireccional con el público”, dijo. “Si lo que escuchamos es algo como: ‘En realidad, no queremos nada de eso’, es algo con lo que estamos muy de acuerdo”.
Microsoft, que ha invertido 10.000 millones de dólares en OpenAI, también tiene acceso a la herramienta de análisis visual. Algunos usuarios del chatbot Bing impulsado por IA de Microsoft han visto aparecer la función en un despliegue limitado; después de cargar imágenes, recibieron un mensaje que les informó que “el desenfoque de privacidad oculta las caras del chat de Bing”.
Sayash Kapoor, científico informático y doctorando en la Universidad de Princeton, usó la herramienta para decodificar un captcha, un control de seguridad visual diseñado para ser inteligible solo para los ojos humanos. Incluso mientras descifraba el código y reconocía las dos palabras ocultas proporcionadas, el chatbot señaló que “los captchas están diseñados para evitar que bots automatizados como yo accedan a ciertos sitios web o servicios”.
“La IA simplemente está abriéndose camino en todas las cosas que se supone que separan a los humanos de las máquinas”, afirmó Ethan Mollick, profesor asociado que estudia innovación y emprendimiento en la Escuela Wharton de la Universidad de Pensilvania.
Logotipo de OpenAI en sus oficinas de San Francisco, California, el 10 de marzo de 2023. (Jim Wilson/The New York Times)