Cómo funciona la inteligencia artificial de Microsoft que puso a cantar a la Mona Lisa

Esta tecnología tiene la capacidad de transformar una simple imagen estática y un fragmento de voz, para crear avatares que pueden hablar y gesticular de manera realista

Guardar
El clip compartido en la red social X alcanzó los siete millones de visualizaciones en solo cuatro días, provocando diversas reacciones que van desde el asombro hasta la preocupación por las implicaciones éticas de esta tecnología. (Microsoft)

Microsoft desarrolló VASA-1, una nueva inteligencia artificial capaz de animar imágenes estáticas para crear vídeos tan realistas que permiten a los personajes hablar con una sincronización casi perfecta de labios y replicar gestos humanos naturales. Incluso fue capaz de transformar a la Mona Lisa de Leonardo Da Vinci, en una rapera que ha sido viral en red.

Este avance fue entrenado utilizando una extensa librería de vídeos de personas hablando, para darle a esta IA la capacidad de capturar y reproducir movimientos faciales y gestos sutiles como el parpadeo y la dirección de la mirada.

Lo que le permite transformar una simple imagen estática y un fragmento de voz en videos de alta definición donde los avatares aparecen hablando y gesticulando de manera natural, creando incluso la ilusión de una conversación real.

Qué tecnologías utiliza VASA-1

VASA-1 redefine la creación de
VASA-1 redefine la creación de contenidos digitales al permitir la animación realista de imágenes estáticas. (Microsoft)

La base técnica detrás de VASA-1 involucra el uso combinado de herramientas de IA avanzada, específicamente StyleGAN2 y DALL·E-3. A diferencia de seres humanos reales, los rostros generados por esta tecnología no corresponden a ninguna identidad existente, lo que Microsoft subraya como una medida ética importante.

Para funcionar, solo necesita una imagen y un clip de audio con voz. Luego puede generar videos de 512 x 512 píxeles a 45 fotogramas por segundo en su modo offline, mientras que en línea, logra 40 fps con una latencia de 170 ms.

Esta tecnología tiene la capacidad
Esta tecnología tiene la capacidad de transformar una simple imagen estática y un fragmento de voz, para crear avatares que pueden hablar y gesticular de manera realista. (Microsoft)

Además, este sistema permite una animación facial detallada que refleja un amplio rango de emociones y movimientos de cabeza, lo cual se traduce en una representación más dinámica y creíble de personalidades virtuales.

Mientras que la demostración de la Mona Lisa interpretando rap que fue elaborado por Anne Hathaway, no solo muestra la capacidad de la IA para generar contenido audiovisual convincente a partir de obras de arte clásicas, sino también su aplicabilidad en otros campos gráficos como caricaturas e ilustraciones.

Por qué esta tecnología genera preocupaciones éticas

Esta tecnología tiene la capacidad
Esta tecnología tiene la capacidad de otorgar expresividad a avatares realistas, transformando una simple imagen estática y un fragmento de voz en videos de alta definición donde estos avatares aparecen hablando y gesticulando de manera natural. (Microsoft)

La preocupación ética está en el centro de la conversación sobre VASA-1 y Microsoft ha tomado medidas para limitar su acceso y evitar malas prácticas, como la producción de videos deepfake que podrían usarse con fines fraudulentos o para la desinformación.

Según ha anunciado la compañía fundada por Bill Gates, la distribución de esta tecnología se realizará de manera controlada, enfocándose en aplicaciones específicas que incluyen la creación de asistentes virtuales para entidades gubernamentales y la integración dentro de productos ya existentes, como Windows Copilot.

. A diferencia de seres
. A diferencia de seres humanos reales, los rostros generados por esta tecnología no corresponden a ninguna identidad existente, lo que Microsoft subraya como una medida ética importante. (REUTERS/Bruna Casas)

Este enfoque ético refleja una preocupación generalizada por las implicaciones de las IA avanzadas, particularmente en lo que respecta a los deepfakes y su impacto en la privacidad y reputación de las personas, un tema de gran relevancia para figuras públicas como Taylor Swift, que ha sido víctima de estos contenidos maliciosos.

En cuanto a la regulación, aunque en Estados Unidos diez estados han criminalizado los deepfakes, no existe aún una legislación federal que aborde específicamente este problema. Sin embargo, se han presentado múltiples propuestas en el Congreso.

Por otro lado, la Unión Europea ha tomado pasos más decisivos al adoptar el Acto de Inteligencia Artificial, que establece medidas de protección específicas para las tecnologías basadas en IA.

Microsoft y Google ya ven las ganancias de la IA

Microsoft gana 66.100 millones de
Microsoft gana 66.100 millones de dólares en nueve meses, un 26 % más interanual. (EFE/JUSTIN LANE)

Microsoft Corp. y Alphabet Inc., la empresa matriz de Google, han demostrado con sus recientes resultados financieros trimestrales que las inversiones en inteligencia artificial (IA) y computación en la nube están generando rendimientos significativos.

Sus ingresos superaron las expectativas de Wall Street, impulsados en gran medida por el creciente interés en las soluciones de IA, lo que resultó en un ascenso notable de sus acciones en el mercado.

Estos resultados enfatizan la competencia intensa entre ambos gigantes tecnológicos por liderar en el ámbito de la inteligencia artificial. Microsoft ha colaborado con OpenAI para intensificar la competitividad frente al dominio de Google en el mercado de búsquedas en internet desde hace más de dos décadas.

Silicon Valley proyecta el 2024 como el año en el que la IA generativa, capaz de crear contenido a partir de simples indicaciones, comenzará a implementarse ampliamente.

Guardar