OpenAI lanza nuevos modelos para la transcripción y la conversión a voz

Guardar

OpenAI ha anunciado nuevos modelos de audio y voz con los que busca impulsar las capacidades de agente de los 'chatbots', con el objetivo en el futuro de que los desarrolladores puedan "incorporar sus propias voces personalizadas".

La firma tecnológica ha presentado dos nuevos modelos de voz a texto que facilitan al transcripción, basado en GPT-4o y GPT-4o mini, que mejoran la tasa de error y el reconocimiento del lenguaje.

OpenAI los compara con los modelos originales de Whisper, de conversión de voz a texto. En concreto, explica que gpt-4o-transcribe mejora el rendimiento en la tasa de error de palabras debido a las novedades aplicadas al aprendizaje por refuerzo y al entrenamiento intermedio con conjuntos de datos de audios diversos de alta calidad.

Potr otra parte, OpenAI ha anunciado un modelo que realiza la acción inversa: convertir texto a voz. En este caso, el modelo gpt-4o-mini-tts habilita experiencias más personalizadas, ya que "los desarrolladores pueden indicarle al modelo no solo qué decir, sino también cómo decirlo", como recoge en el blog oficial.

De cara al futuro, OpenAI planea mejorar "la inteligencia y la precisión" de los modelos de audio para que los desarrolladores puedan "incorporar sus propias voces personalizadas".

EuropaPress

OpenAI lanza nuevos modelos para la transcripción y la conversión a voz

Últimas Noticias

Ocho hospitalizados por un ataque ruso en el suroeste de Ucrania

El Ejército de RDC denuncia múltiples ataques del M23 y las Fuerzas Armadas de Ruanda

El BOE publica la oferta de empleo público 2025, con 36.588 plazas, casi un 9% menos

Alejandro G. Roemmers firma 'El misterio del último Stradivarius', el último libro que leyó y prologó Mario Vargas Llosa

Arquimea duplicó ingresos en su último ejercicio fiscal, hasta 100 millones, y prevé quintuplicarlos en 3 años

Temas Relacionados