OpenAI lanzará el modo de voz tras retrasarlo por motivos de seguridad

La actualización de voz de ChatGPT estará disponible primero para un pequeño grupo de usuarios, promete una interacción máquina-humano más natural sin la polémica voz de Sky

Guardar
OpenAI, fabricante de ChatGPT, lanzará
OpenAI, fabricante de ChatGPT, lanzará su modo de voz tras pruebas de seguridad. (REUTERS/Dado Ruvic)

OpenAI, fabricante de ChatGPT, anunció el martes 30 de julio que empezará a ofrecer a sus clientes su nuevo modo de voz, un mes después de retrasar el lanzamiento para realizar más pruebas de seguridad de la herramienta.

OpenAI presentó en mayo el modo de voz conversacional, capaz de detectar distintos tonos de voz y responder a las interrupciones como si fuera un humano. Pero algunos investigadores no tardaron en criticar a la empresa por mostrar un producto de inteligencia artificial que respondía a estereotipos sexistas sobre asistentes femeninas coquetas y complacientes.

La actriz Scarlett Johansson alegó que la empresa había copiado su voz de la película “Her”, en la que un robot de inteligencia artificial entabla una relación romántica con un hombre.

Tecnológicas como OpenAI buscan crear
Tecnológicas como OpenAI buscan crear chatbots más avanzados. (REUTERS/Dado Ruvic)

Los registros de OpenAI muestran que trabajó con una actriz completamente distinta y retiró la voz, llamada Sky, de su producto. En junio, dijo que retrasaría el lanzamiento del modo de voz para realizar más pruebas de seguridad. El nuevo modo de voz lanzado el martes no incluye la voz de Sky, según confirmó un portavoz de OpenAI.

Las empresas tecnológicas llevan años trabajando para crear chatbots conversacionales con IAAlexa, de Amazon, y Siri, de Apple, son omnipresentes y millones de personas los utilizan para programar horarios y consultar el tiempo, pero no son lo bastante capaces para realizar tareas complejas.

Ahora, OpenAIGoogleMicrosoftApple y una serie de otras empresas tecnológicas están tratando de utilizar los avances en IA generativa para construir finalmente el tipo de asistente que ha sido un elemento fijo de la ciencia ficción durante décadas.

Los fans y clientes de OpenAI han reclamado el modo de voz, y algunos se quejaron en Internet cuando la empresa retrasó el lanzamiento en junio. La nueva función estará disponible para un pequeño número de usuarios al principio, y la empresa la abrirá gradualmente a todos los clientes de pago de OpenAI en otoño.

La función de voz de
La función de voz de ChatGPT estará disponible primero para un pequeño grupo de usuarios. (EFE/ Wu Hao)

Las versiones anteriores de ChatGPT tenían la capacidad de escuchar preguntas habladas y responder con audio transcribiendo las preguntas a texto, pasándolas por su algoritmo de IA y leyendo después su respuesta de texto en voz alta. Pero las nuevas funciones de voz se basan en el último modelo de IA de OpenAI, que procesa directamente el audio sin necesidad de convertirlo primero en texto.

Esto permite al robot escuchar varias voces a la vez y determinar el tono de voz de una persona, respondiendo de forma diferente en función de lo que piensa que son las emociones de la persona.

Esto abre un nuevo abanico de preguntas, como por ejemplo cómo entran en juego las diferencias culturales o si las personas podrían entablar relaciones con bots entrenados para responder a sus emociones de formas específicas.

OpenAI afirma que ha trabajado con personas que representan 45 idiomas y 29 “geografías” para mejorar las capacidades del modelo de IA. Sólo se podrán utilizar cuatro voces únicas, y la herramienta bloqueará los intentos de que el bot genere voces de personas reales, afirma la empresa.

(c) 2024, The Washington Post

Guardar