Meta anunció en exclusiva para Infobae el desarrollo de Voicebox, un modelo de inteligencia artificial de última generación capaz de realizar tareas de generación del habla como edición, muestreo y estilización, incluso sin haber sido específicamente entrenado para ello, sino a través del aprendizaje en contexto, así lo anunció, Mark Zuckerberg.
Voicebox tiene la capacidad de producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar ruidos no deseados o corregir pronunciaciones, manteniendo el contenido y el estilo originales. Además, este modelo es multilingüe y puede generar habla en seis idiomas diferentes.
En el futuro, se espera que modelos generativos de IA multipropósito como este, puedan desempeñar funciones como dar discursos naturales a asistentes virtuales y personajes de metaversos, permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar a los creadores herramientas para la edición de audio en la producción de videos, entre muchas otras aplicaciones.
La versatilidad de Voicebox se destaca en tareas como la síntesis de texto a habla contextual, la edición de habla y reducción de ruido, la transferencia de estilo entre idiomas y el muestreo de habla diversa.
Este avance representa un hito importante en la investigación de IA generativa y promete abrir nuevas posibilidades en el ámbito del audio, además de inspirar a otros investigadores a desarrollar aún más esta tecnología.
Principales características
- Voicebox: Modelo generativo de habla de última generación.
- Método Flow Matching: Nuevo enfoque utilizado por Meta IA para resolver la tarea de relleno de discurso guiada por texto.
- Escala de datos: ha sido entrenado con una gran cantidad de datos para mejorar su capacidad de aprendizaje en contexto.
- Variedad de estilos: puede generar resultados en diversos estilos y crear clips de audio de alta calidad.
- Disponibilidad limitada: Debido a los posibles riesgos de mal uso, el modelo y su código no están actualmente disponibles para el público.
- Transparencia y responsabilidad: Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos.
Los modelos generativos a gran escala, como GPT y DALL-E, han revolucionado la investigación en procesamiento de lenguaje natural y visión por computadora. Estos no solo generan textos o imágenes de alta fidelidad, sino que también son generalistas y pueden resolver tareas no enseñadas explícitamente.
Sin embargo, los modelos generativos de habla aún están en una etapa primitiva en cuanto a escala y generalización de tareas. En el caso de Voicebox, es un modelo de flujo coincidente no autorregresivo entrenado para completar fragmentos de habla, dados un contexto de audio y texto, utilizando más de 50,000 horas de habla sin filtrar ni mejorar.
Al igual que GPT, esta herramienta puede realizar diferentes tareas a través del aprendizaje en contexto, pero con la ventaja de poder condicionar también en el contexto futuro. Puede utilizarse para la síntesis de texto a habla monolingüe o multilingüe sin necesidad de entrenamiento previo, eliminación de ruido, edición de contenido, conversión de estilo y generación de muestras diversas.
Mark Zuckerberg criticó las Vision Pro de Apple
En una reunión con sus empleados, Mark Zuckerberg habló sobre las Apple Vision Pro, las nuevas gafas de realidad mixta que la empresa presentó hace unos días y que llegarán en 2024 a 3.499 dólares, un precio siete veces mayor que las Quest 3, los visores recientemente confirmados por Meta. El directivo criticó ese alto costo y el enfoque con el que se lanza el producto.
“Creo que su anuncio realmente muestra la diferencia en los valores y la visión que nuestras empresas aportan a esto de una manera que creo que es realmente importante. Innovamos para asegurarnos de que nuestros productos sean tan accesibles y asequibles para todos como sea posible”, afirmó el CEO, en declaraciones publicadas por The Verge, medio que estuvo presente en la reunión.