Un nuevo modelo de inteligencia artificial tiene como función generar imágenes con base en texto, descripciones o prompts en segundos. “Stable Diffusion XL Turbo (SDXL Turbo)” va creando tan rápido que lo hace mientras el usuario escribe las instrucciones.
Según el desarrollador, esta mejora en la forma de crear imágenes se centra en una tecnología llamada “Adversarial Diffusion Distillation (ADD)”, que produce este tipo de contenido en un solo paso a diferencia de los 20 a 50 pasos necesarios en su modelo anterior y que hacía que cada imagen tomara varios segundos en ser elaborada.
A pesar de que las imágenes generadas no tienen el mismo detalle que las producidas en mayor cantidad de pasos por el modelo anterior, la mejora en velocidad es significativa, ofreciendo resultados visualmente impactantes. En ensayos, SDXL Turbo ha logrado generar una imagen de 1024×1024 en aproximadamente 4 segundos.
Aunque las imágenes generadas por SDXL Turbo no son tan detalladas como aquellas producidas por el modelo anterior y que incorporaba más pasos, los resultados ofrecidos son notoriamente rápidos pues las tarjetas de procesamiento gráfico permiten el desarrollo de estos nuevos gráficos casi en tiempo real.
Si bien la velocidad de creación para imágenes, el modelo Stable Diffusion XL Turbo (SDXL Turbo) podría permitir la elaboración de imágenes y dedicarlas específicamente a la creación de videos cortos, por el momento no se ha incorporado esta eventual nueva característica.
Además, SDXL Turbo está disponible únicamente bajo una licencia de investigación no comercial, por lo que solo se puede usar por motivos académicos.
Actualmente, Stability AI ofrece una demostración de la prueba beta de acceso anticipado de las capacidades de SDXL Turbo en su aplicación de edición de imágenes, Clipdrop.
Creación de videos con inteligencia artificial
Por otro lado, Stability AI también ha creado una nueva herramienta de creación de videos cortos llamada “Stable Video Diffusion”, una aplicación similar y que usa los mismos modelos de inteligencia artificial.
A diferencia de un generador de videos común, que crea un archivo en formato MP4 únicamente basado en una descripción de lo que quiere el usuario, Stable Video Diffusion promete transformar una imagen estática en un video con una fluidez de entre 3 y 30 fotogramas por segundo y una resolución de 576 x 1024.
Lógicamente las descripciones de los usuarios seguirán teniendo una gran importancia pues estos prompts o indicaciones servirán como un segundo de partida al contener información sobre lo que cada usuario desea que se presente en pantalla al momento de generar el contenido. De esta forma, se busca que ambas herramientas: Stable Diffusion y Stable Video Diffusion puedan trabajar en conjunto con las mismas imágenes.
Según la compañía, la generación de los videos con Stable Video Diffusion funciona mucho mejor mientras más detallada se encuentre la descripción de la indicación. Además, el modelo puede adaptarse a las solicitudes de otras tareas complementarias como la creación de videos multi vista que pueden modificar características básicas de la imagen de la que parte el procesamiento.
De esta forma, el software de Stability AI puede ser utilizado en diferentes ámbitos como la publicidad, la educación y el entretenimiento. Sin embargo, esto no significa que el trabajo será completamente realizado por un computador pues al final será necesaria uan persona experta en prompts e indicaciones la encargada de controlar el producto final que genere la inteligencia artificial.
Por el momento el acceso al programa de Stable Video Diffusion se encuentra limitado a una pequeña selección de usuarios, pero es posible ingresar a probar sus capacidades de dos formas: la descarga del modelo en un computador y ejecutarlo de forma local o por medio de un registro del usuario a la lista de espera.