Conoce a DALL-E, la inteligencia artificial que dibuja lo que le ordenes

Guardar

Nuevo

Especial para Infobae de The New York Times.

SAN FRANCISCO — En OpenAI, uno de los laboratorios más ambiciosos de inteligencia artificial en el mundo, un grupo de investigadores está desarrollando una tecnología que te permite crear imágenes digitales con tan solo describir lo que quieres ver.

La llaman DALL-E, un guiño hacia “WALL-E”, la película animada sobre un robot autónomo, y Salvador Dalí, el pintor surrealista.

OpenAI, con un respaldo financiero de 1000 millones de dólares de Microsoft, aún no compartirá la tecnología con el público en general. Sin embargo, una tarde reciente, Alex Nichol, uno de los investigadores detrás del sistema, hizo una demostración de su funcionamiento.

Cuando Nichol pidió “una tetera con la forma de un aguacate”, tecleando esas palabras en una pantalla de computadora que estaba vacía en su mayor parte, el sistema creó diez imágenes distintas de una tetera de aguacate color verde oscuro, algunas con el hueso y otras sin el hueso.

“DALL-E es buena con los aguacates”, comentó Nichol.

Un equipo de siete investigadores se dedicó dos años a desarrollar la tecnología y, con el tiempo, OpenAI planea ofrecerla a manera de herramienta para personas como artistas gráficos, pues les proporcionará nuevos atajos e ideas al momento de crear y editar imágenes digitales. Los programadores de computadoras ya usan Copilot, una herramienta basada en tecnología similar de OpenAI, para generar fragmentos de código de software.

No obstante, para muchos expertos, DALL-E es preocupante, pues, a medida que este tipo de tecnología siga mejorando, podría ayudar a propagar desinformación por el internet y alimentar el tipo de campañas en línea que tal vez sirvieron para influir en las elecciones presidenciales de 2016.

“Se podría utilizar para cosas buenas, pero sin duda podría tener todo tipo de otros usos preocupantes y disparatados, entre ellos los ‘ultrafalsos’”, como videos y fotografías engañosos, comentó Subbarao Kambhampati, profesor de Ciencias de la Computación en la Universidad Estatal de Arizona.

Hace media década, los principales laboratorios de inteligencia artificial del mundo crearon sistemas que podían identificar objetos en imágenes digitales e incluso generar imágenes por sí solos, entre ellas flores, perros, autos y rostros. Unos años más tarde, construyeron sistemas que podían hacer casi lo mismo con el lenguaje escrito: resumir artículos, responder preguntas, generar tuits e incluso escribir publicaciones de blog.

En la actualidad, los investigadores están combinando esas tecnologías para crear nuevas formas de inteligencia artificial. DALL-E es un avance notable porque compagina el lenguaje y las imágenes y, en algunos casos, comprende la relación entre ambos.

“Ahora podemos usar varios flujos de información entrelazados para crear una tecnología cada vez mejor”, comentó Oren Etzioni, director ejecutivo del Instituto Allen de Inteligencia Artificial, un laboratorio de inteligencia artificial en Seattle.

La tecnología no es perfecta. Cuando Nichol le pidió a DALL-E que pusiera “la Torre Eiffel en la luna”, el sistema no comprendió del todo la idea. Puso la luna en el cielo sobre la torre. Cuando le pidió una “sala de estar llena de arena”, produjo una escena más parecida a un sitio de construcción que a una sala de estar.

Sin embargo, cuando Nichol modificó un poco sus peticiones, agregando o quitando una que otra palabra, el sistema produjo lo que quería. Cuando le pidió “un piano en una sala de estar llena de arena”, la imagen se veía más como una playa en una sala de estar.

DALL-E es lo que los investigadores especializados en inteligencia artificial llaman una red neuronal, un sistema matemático que en líneas generales usa como modelo la red de neuronas del cerebro. Es la misma tecnología que reconoce los comandos de voz en los teléfonos inteligentes e identifica la presencia de peatones cuando los vehículos autónomos circulan por calles urbanas.

Una red neuronal aprende habilidades analizando grandes cantidades de datos. Por ejemplo, al ubicar patrones en miles de fotografías de aguacates, puede aprender a reconocer un aguacate. DALL-E busca patrones mientras analiza millones de imágenes digitales, así como títulos que describen lo que representa cada imagen. De esta manera, aprende a reconocer los vínculos entre las imágenes y las palabras.

Cuando alguien le describe una imagen a DALL-E, el sistema genera un conjunto de características clave que podrían estar en esa imagen. Una característica podría ser la línea en el borde de una trompeta. Otra podría ser la curva en la parte superior de la oreja de un oso de peluche.

Luego, una segunda red neuronal, llamada modelo de difusión, crea la imagen y genera los pixeles necesarios para obtener esas características. La versión más reciente de DALL-E, develada el miércoles con un nuevo artículo de investigación que describe el sistema, genera imágenes de alta resolución que en muchos casos parecen fotografías.

Aunque DALL-E a menudo no comprende lo que le describen y a veces produce imágenes confusas, OpenAI sigue mejorando la tecnología. Los investigadores suelen refinar las habilidades de una red neuronal alimentándola con cantidades todavía más grandes de datos.

También pueden construir sistemas más potentes usando los mismos conceptos para nuevos tipos de datos. Hace poco, el Instituto Allen creó un sistema que puede analizar audio, así como imágenes y texto. Después de analizar millones de videos de YouTube, incluyendo pistas de audio y subtítulos, aprendió a identificar momentos particulares en programas de televisión y películas, como un perro que ladra o una puerta que se cierra.

Los expertos creen que los investigadores seguirán perfeccionando ese tipo de sistemas. A final de cuentas, estos sistemas podrían ayudar a las empresas a mejorar los motores de búsqueda, los asistentes digitales y otras tecnologías comunes, así como automatizar nuevas tareas para los artistas gráficos, los programadores y otros profesionistas.

Sin embargo, ese potencial viene con advertencias. Los sistemas de inteligencia artificial pueden mostrar prejuicios en contra de las mujeres y las personas de color, en parte porque aprenden sus habilidades de enormes cantidades de texto en línea, imágenes y otros datos que exhiben prejuicios. Se podrían usar para generar pornografía, discursos de odio y otros materiales ofensivos. Además, muchos expertos creen que la tecnología a la postre facilitará tanto la creación de desinformación que la gente tendrá que ser escéptica de casi todo lo que ve en línea.

“Podemos falsificar textos. Podemos poner texto en la voz de alguien. Y podemos falsificar imágenes y videos”, comentó Etzioni. “Ya existe la desinformación en línea, pero la inquietud” es que esto la escale a nuevos niveles.

OpenAI mantiene un férreo control sobre DALL-E. No deja que gente externa use el sistema por su cuenta. Pone marcas de agua en la esquina de cada imagen que genera. Y, aunque el laboratorio planea abrir el sistema para pruebas esta semana, el grupo será pequeño.

Guardar

Nuevo

Últimas Noticias