Cómo generar sonidos a partir de texto usando inteligencia artificial

Guardar

Un equipo de investigadores de Meta y la Universidad Hebrea de Jerusalén está trabajando en el desarrollo de una IA que genera audio en base a descripciones de texto. (Pawel Czerwinski, Unsplash)

La Inteligencia Artificial está cobrando mayor importancia en gran variedad de actividades relacionadas con la producción de contenido. A las IAs que crean imágenes basadas en audio se ha sumado las que crean video, como la desarrollada por Meta. Sin embargo, también se ha creado una que tiene la capacidad de generar audio a partir de indicaciones de texto.

El nuevo programa fue creado por investigadores de Meta en conjunto con la Universidad Hebrea de Jerusalén como parte de un proyecto que genera, partiendo desde cero y solo con descripciones de texto, muestras de audio de algunos segundos de duración. Un inicio humilde para una herramienta que puede ser útil en el futuro.

Felix Kreuk, invesigador en Meta, publicó un video en Twitter que presentó el pequeño resultado de la creación de esta Inteligencia Artificial a la que se puso a prueba con indicaciones como “silvando con viento”, “hombre hablando con muchas personas aplaudiendo en el fondo”, “hombre hablando seguido por otro hombre hablando de fondo mientras suena el motor de una motocicleta” y “hombre hablando mientras escribe en un teclado”.

Prueba de AudioGen, la IA que puede generar sonidos a partir de textos

Según la publicación, AudioGen sintetiza audio de manera condicionada por un texto. “opera sobre representaciones discretas aprendidas de la forma de onda sin procesar”, indicó Kreuk. Además, agregó que esta Inteligencia Artificial “puede generar audio condicionado a texto, continuar con un mensaje de audio existente o ambos”.

El investigador del proyecto también añadió que las pruebas que se hacen con la Inteligencia Artificial incluyen mezclas de audio durante el procesamiento de la información y se utilizan textos guía sin clasificadores para mejorar su respuesta.

El documento resultado de la investigación de Meta y la Universidad Hebrea de Jerusalén indica que una de las limitantes del modelo actual de AudioGen es que al momento de solicitar el audio de un hombre hablando, el resultado es ininteligible y no se puede distinguir una sola palabra.

Una posible solución a este inconveniente podría ser el uso de mayor información relacionada con discursos, aumentar la capacidad de recepción de la palabra o por medio de más características dirigidas a ese fin.

Ilustración de inteligencia artificial. (foto: Unocero)

Sin embargo, también tiene la capacidad para superar otros inconvenientes generados a partir de la interacción con audio, como distinguir diferentes tipos de sonidos y separarlos en pistas de audio distintas (útil para edición de audio con interferencia o mucho ruido del ambiente).

Además, gracias a su capacidad para aprender en base a la experiencia, la inteligencia Artificial de Meta y la Universidad Hebrea ya tiene la capacidad para genera audio sin usar la base de datos de entrenamiento que se le otorgó al inicio del proceso de prueba, lo que indica una mejora progresiva de sus habilidades, aunque los audios resultantes de los pedidos realizados en base a texto tengan una duración de apenas unos segundos.

Aunque AudioGen se mantiene en fase de prueba, se sabe que los investigadores han utilizado “diez conjuntos de datos de audio y etiquetas coincidentes”, lo que quiere decir que la Inteligencia Artificial sigue aprendiendo en base a la experiencia, así que los productos de su procesamiento solo pueden mejorar.

Por otro lado, las personas involucradas dentro del proyecto tienen la intención de poner la Inteligencia Artificial a disposición del público, al igual que difundir el código de la herramienta para que otras personas realicen pruebas en el mismo.

SEGUIR LEYENDO:

Estas 3 webs crean imágenes con inteligencia artificial usando palabras

Meta creó esta inteligencia artificial que genera videos a partir de textos e imágenes

La inteligencia artificial que convierte cualquier persona o palabra en un Pokemón

Últimas Noticias

Salir de un grupo de WhatsApp en modo incógnito es posible

La actualización está activa para iPhone y teléfonos Android

Apple Music lanza “Replay”, una lista de canciones preferidas cada semana

La recopilación de canciones favoritas será actualizada cada domingo hasta el final del año 2023

Inteligencia artificial elimina marcas de agua en fotografías

Según WatermarkRemover, estos sellos que garantizan los derechos de autor también arruinan la estética de las fotografías

Así se puede usar un iPhone como traductor de idiomas, sin internet

La aplicación de Traducción se encuentra instalada de forma predeterminada en los celulares de Apple y puede descargarse desde la App Store

Juegos de rol en TikTok: “escoge tu aventura” es el nuevo desafío

Los usuarios aprovechan las herramientas de la red social para proponer escenarios entretenidos a sus seguidores

MÁS NOTICIAS

Cómo generar sonidos a partir de texto usando inteligencia artificial

La herramienta está siendo desarrollada por un equipo de Meta y la Universidad Hebrea de Jerusalén

Últimas Noticias

Salir de un grupo de WhatsApp en modo incógnito es posible

La actualización está activa para iPhone y teléfonos Android

Apple Music lanza “Replay”, una lista de canciones preferidas cada semana

La recopilación de canciones favoritas será actualizada cada domingo hasta el final del año 2023

Inteligencia artificial elimina marcas de agua en fotografías

Según WatermarkRemover, estos sellos que garantizan los derechos de autor también arruinan la estética de las fotografías

Así se puede usar un iPhone como traductor de idiomas, sin internet

La aplicación de Traducción se encuentra instalada de forma predeterminada en los celulares de Apple y puede descargarse desde la App Store

Juegos de rol en TikTok: “escoge tu aventura” es el nuevo desafío

Los usuarios aprovechan las herramientas de la red social para proponer escenarios entretenidos a sus seguidores

Termina la temporada cannábica 2025: marchan en varias ciudades de México por la legalización de la marihuana

Acribillaron a un infante de marina en Sincelejo: le propinaron múltiples disparos por la espalda

El Jefe extendió el castigo de Karina y Altafulla en ‘La casa de los famosos’: “Dura 24 horas más”

ELN difundió prueba de vida de soldado secuestrado en Arauca: Defensoría del Pueblo y el Ejército se pronunciaron

Jugadores de Atlético Nacional fueron vistos en el Burger Máster: los seguidores del equipo reaccionaron

Candidato verde a Cancillería advierte a conservadores contra acercamiento a ultraderecha

Ministra colombiana pide proteger humedales, clave para enfrentar mejor crisis climática

Pablo Hernández jura como nuevo presidente del PPD, en el "momento difícil" del colectivo

David Ferrer: "La Copa Davis ayuda a manejar la presión, a crecer como tenista"

Los colombianos Kevin Serna y Jhon Arias lideran la remontada del Fluminense en la Liga

ENTRETENIMIENTO

La verdad detrás de la fortuna de Harry Potter: ¿de dónde venía la riqueza que le heredaron sus padres?

El osado look de la novia de Leonardo DiCaprio acaparó todas las miradas durante una gala benéfica en Nueva York

Lady Gaga en Río de Janeiro: horario, canciones y todo lo que hay que saber sobre el show que promete hacer historia

Ricardo Darín y El Eternauta: “una locura” que arrasa en Netflix

Furor por Lady Gaga en Brasil: una multitud presenció el ensayo de la artista en Río de Janeiro

Temas Relacionados

Últimas Noticias

Salir de un grupo de WhatsApp en modo incógnito es posible

La actualización está activa para iPhone y teléfonos Android

Apple Music lanza “Replay”, una lista de canciones preferidas cada semana

La recopilación de canciones favoritas será actualizada cada domingo hasta el final del año 2023

Inteligencia artificial elimina marcas de agua en fotografías

Según WatermarkRemover, estos sellos que garantizan los derechos de autor también arruinan la estética de las fotografías

Así se puede usar un iPhone como traductor de idiomas, sin internet

La aplicación de Traducción se encuentra instalada de forma predeterminada en los celulares de Apple y puede descargarse desde la App Store

Juegos de rol en TikTok: “escoge tu aventura” es el nuevo desafío

Los usuarios aprovechan las herramientas de la red social para proponer escenarios entretenidos a sus seguidores

Termina la temporada cannábica 2025: marchan en varias ciudades de México por la legalización de la marihuana

Acribillaron a un infante de marina en Sincelejo: le propinaron múltiples disparos por la espalda

El Jefe extendió el castigo de Karina y Altafulla en ‘La casa de los famosos’: “Dura 24 horas más”

ELN difundió prueba de vida de soldado secuestrado en Arauca: Defensoría del Pueblo y el Ejército se pronunciaron

Jugadores de Atlético Nacional fueron vistos en el Burger Máster: los seguidores del equipo reaccionaron

Candidato verde a Cancillería advierte a conservadores contra acercamiento a ultraderecha

Ministra colombiana pide proteger humedales, clave para enfrentar mejor crisis climática

Pablo Hernández jura como nuevo presidente del PPD, en el "momento difícil" del colectivo

David Ferrer: "La Copa Davis ayuda a manejar la presión, a crecer como tenista"

Los colombianos Kevin Serna y Jhon Arias lideran la remontada del Fluminense en la Liga

ENTRETENIMIENTO

La verdad detrás de la fortuna de Harry Potter: ¿de dónde venía la riqueza que le heredaron sus padres?

El osado look de la novia de Leonardo DiCaprio acaparó todas las miradas durante una gala benéfica en Nueva York

Lady Gaga en Río de Janeiro: horario, canciones y todo lo que hay que saber sobre el show que promete hacer historia

Ricardo Darín y El Eternauta: “una locura” que arrasa en Netflix

Furor por Lady Gaga en Brasil: una multitud presenció el ensayo de la artista en Río de Janeiro