Hace apenas unos años, difícilmente podríamos haber imaginado que millones de personas en todo el mundo tendrían acceso a aplicaciones de inteligencia artificial generativa fáciles de usar que producen textos, imágenes y videos. Estas aplicaciones pueden generar resultados que parecen creados por seres humanos, así como crear cosas que nunca han existido en la realidad.
El rápido avance de las capacidades de los grandes modelos lingüísticos, que tras décadas de desarrollo han empezado a generar textos complejos y razonablemente creíbles, tomó por sorpresa incluso a los expertos. Como resultado, la atención también se centró en modelos que combinan texto con datos visuales, como imágenes y vídeos, y su desarrollo se aceleró.
Ahora estos modelos pueden generar vídeos realistas de una calle concurrida de una ciudad o de una ardilla caminando por la Luna, y todo lo que el usuario tiene que hacer es introducir una breve descripción textual o imágenes que sirvan como fuente visual.
Sin embargo, junto con estas asombrosas capacidades y las preocupaciones que las acompañan sobre los peligros inherentes a ordenadores tan potentes, el alcance operativo de las redes de aprendizaje profundo sigue siendo limitado, especialmente cuando se trata de vídeo, y este es el reto que muchos investigadores están abordando.
El equipo del laboratorio de la doctora Tali Dekel para el estudio de la visión artificial en el Departamento de Informática y Matemáticas Aplicadas del Instituto de Ciencias Weizmann, espera superar las limitaciones de estas máquinas generativas y llevarlas al nivel humano, o incluso más allá.
“Defino nuestro campo de investigación como ‘re-renderizar la realidad’, es decir, recrear el mundo visual utilizando herramientas computacionales”, dice. “Analizamos imágenes y videos y nos centramos en sus aspectos específicos, y luego creamos una nueva versión con características diferentes. Mi objetivo es mejorar la forma en que vemos el mundo, para darnos más creatividad e incluso un nuevo tipo de interacción con los datos visuales”.
Dekel añade: “Nuestra investigación plantea preguntas fascinantes, como por ejemplo: ¿Qué aprende un modelo generativo sobre el mundo y cómo codifica esta información? ¿Cómo podemos representar de forma eficaz la información visual en el espacio y el tiempo para poder modificarla y, en última instancia, poder interactuar con nuestro mundo dinámico a través de vídeos?”.
Además de su trabajo en el Instituto Weizmann, Dekel también es investigadora en Google. Mientras que sus estudios en Weizmann se centran en superar las limitaciones de los modelos de IA existentes, su trabajo en Google implica el desarrollo de nuevos modelos, como el innovador modelo de texto a vídeo Lumiere, cuyo resultado se dio a conocer recientemente al público.
Lumiere puede, con el uso de un breve mensaje de texto o una foto de referencia, producir una amplia e impresionante gama de vídeos o editar vídeos existentes. Por ejemplo, el modelo generó una serie de vídeos de una mujer corriendo en un parque, convirtiéndola en una figura hecha de bloques de madera, ladrillos de juguete de colores o incluso flores.
Cuando a Lumiere se le presentó una imagen de un viejo tren de vapor que echaba humo sobre una vía férrea y los investigadores resaltaron la parte de la imagen que contenía el humo, el modelo creó una imagen parcialmente animada en la que solo se movía el humo. Lo hizo de una manera muy realista, manteniendo el resto de la imagen sin cambios. Los investigadores incluso se divirtieron un poco con Lumière, pidiéndole que generara una Mona Lisa bostezando y poniendo una sonrisa en el rostro de la niña en La joven de la perla de Vermeer.
“Lumiere [es] un modelo de difusión de texto a vídeo diseñado para sintetizar vídeos que retratan un movimiento realista, diverso y coherente, un desafío fundamental en la síntesis de vídeo”, según el artículo publicado por los investigadores, entre ellos Dekel, cuando dieron a conocer el nuevo modelo.
Lumiere es único en su capacidad de generar una serie completa de fotogramas sin espacios entre ellos, mientras que los modelos anteriores comenzaban generando fotogramas clave distantes en la escala espacio-temporal y solo entonces completaban el movimiento entre los fotogramas clave. Es por eso que los modelos anteriores tenían dificultades para generar un movimiento convincente y natural; Lumiere puede generar secuencias completas de movimiento de alta calidad.
Pero, ¿cómo hacen su magia los modelos de aprendizaje profundo? Ni siquiera los científicos están del todo seguros. “Todo el campo de la IA generativa está atravesando un cambio de paradigma”, explica Dekel. “En un pasado no tan lejano, estos modelos eran mucho más pequeños, más simples y estaban diseñados para realizar tareas específicas, la mayoría de las veces utilizando datos etiquetados. Por ejemplo, para enseñar a un ordenador a reconocer objetos en una imagen, teníamos que presentarle una serie de imágenes en las que esos objetos estaban etiquetados y explicarle que esto es un coche, esto es un gato, etcétera. Ahora los modelos han crecido y pueden aprender de enormes cantidades de datos sin necesidad de etiquetado humano. Los modelos adquieren una representación universal del mundo visual que pueden utilizar para una variedad de tareas, no solo para el propósito específico para el que fueron entrenados originalmente”.
Y aunque la mejora en las capacidades de autoaprendizaje de estos modelos es evidente, todavía no sabemos exactamente cómo funcionan. “Grandes secciones de redes neuronales son una especie de ‘caja negra’ para nosotros”, añade Dekel.
Este enigma es especialmente complicado cuando se trata de modelos generadores de vídeo, ya que cada segundo de vídeo se compone de unas 25 imágenes diferentes. En particular, la mayoría de los modelos de texto a vídeo a gran escala son muy complejos, requieren una enorme potencia de cálculo y se entrenan con grandes cantidades de datos. Esto significa que el tamaño de las redes informáticas y los retos computacionales a los que se enfrentan son incluso mayores que en el caso de los modelos que crean textos o imágenes, y el alcance de funcionamiento impenetrable de los modelos se amplía en consecuencia.
Para Dekel, las “cajas negras” que hay dentro de estos modelos ofrecen excelentes oportunidades de investigación. “Durante el proceso de autoaprendizaje, los modelos adquieren una enorme cantidad de información sobre el mundo. Como parte de nuestra investigación sobre la reproducción de la realidad mediante herramientas digitales, estamos tratando de producir resultados diferentes a partir de modelos existentes, casi sin alterarlos en absoluto. En lugar de eso, estamos tratando de entender mejor cómo funcionan mientras intentamos descubrir nuevas tareas que sean capaces de completar”, dice Dekel sobre la investigación que llevó a cabo con su colega de Weizmann, el doctor Shai Bagon, el doctor Yoni Kasten de NVIDIA Research y los estudiantes de Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman y Danah Yatim.
Los investigadores del laboratorio de Dekel también están buscando métodos sofisticados para procesar vídeos, que incluyen la descomposición del contenido en componentes más simples, como una imagen que presenta el fondo de un vídeo y otras imágenes, cada una de las cuales representa objetos que cambian a lo largo del vídeo.
Esta separación hace que el proceso de edición sea mucho más sencillo: en lugar de procesar una cantidad enorme de píxeles, el modelo edita solo una imagen y todos los demás fotogramas cambian en consecuencia. Por ejemplo, si el color de un vestido cambia en un fotograma, el modelo sabe cómo hacer ese cambio a lo largo de todo el vídeo, lo que garantiza la continuidad.
Otro desafío al que se enfrentan los investigadores es el hecho de que muchas imágenes y vídeos generados por modelos no parecen realistas, ya que presentan objetos que se mueven de forma diferente a lo que cabría esperar, dada nuestra experiencia en el mundo real.
Como parte de sus esfuerzos por enseñar a los modelos a generar vídeos en los que el movimiento sea coherente y lógico, Dekel y su equipo demostraron cómo se pueden ampliar las capacidades de los modelos de texto a imagen para que también puedan generar y editar vídeos.
Por ejemplo, introdujeron un vídeo de un lobo moviendo la cabeza de un lado a otro en un modelo de código abierto llamado Stable Diffusion y le pidieron que generara un vídeo similar en el que apareciera un muñeco de trapo parecido a un lobo. Al principio, el modelo creó un vídeo que tenía retrasos y era poco realista, ya que cada imagen del vídeo se editaba de forma diferente.
Pero al comprender mejor cómo el modelo procesa y representa las imágenes durante la edición, los investigadores lograron que editara todos los fotogramas de la misma manera, lo que dio como resultado un vídeo en el que el muñeco lobo se movía de forma natural y convincente.