OpenAI ha tomado la decisión de pausar el uso de una de las voces de ChatGPT. El chatbot cuenta con cinco opciones diferentes, pero una de ellas ha sido criticada por parecerse a la de la actriz, Scarlett Johansson, quien se puso en contacto con la empresa al considerar que esa voz era “sorprendentemente similar” a la de ella. Por lo que la compañía prefirió detener su uso parcialmente.
Desde su lanzamiento en septiembre de 2023, esta herramienta de inteligencia artificial ha tenido la capacidad de mantener conversaciones fluidas y comprender una amplia gama de temas y contextos.
Una de sus características fue la inclusión de cinco voces diferentes: Breeze, Cove, Ember, Juniper y Sky. Estas voces, que ofrecen una experiencia más humana y personalizada para los usuarios, fueron cuidadosamente seleccionadas después de un riguroso proceso de audición y selección que involucró a profesionales de la industria del doblaje y la dirección de casting.
Sin embargo, fue precisamente una de estas voces, Sky, la que generó controversia recientemente luego de un comunicado publicado por la actriz, donde manifestaba estar “impactada” y “enojada” por el uso no autorizado de una voz que era “sorprendentemente similar”.
“Mis amigos, mi familia y el público en general se dieron cuenta de lo mucho que se parecía a mí el nuevo sistema llamado “Sky”. Dos días antes de que saliera la demo de ChatGPT 4.0, el Sr. Altman se puso en contacto con mi agente para pedirme que lo reconsiderara. Antes de que pudiéramos conectarnos, el sistema ya estaba en el mercado”, publicó Johansson en el comunicado.
ChatGPT y su parecido con Scarlett Johansson
Usuarios notaron un marcado parecido entre la voz de Sky y la icónica interpretación de Scarlett Johansson en la película Her. Aunque OpenAI ha enfatizado que la voz de Sky no es una imitación intencional de Johansson, sino más bien el resultado del trabajo de una actriz profesional que empleó su voz natural, la percepción pública y las comparaciones no tardaron en surgir.
Para abordar estas preocupaciones y proteger la privacidad y la integridad de los actores involucrados, OpenAI optó por tomar la medida de pausar temporalmente el uso de la voz de Sky en ChatGPT.
El proceso de selección de las voces de ChatGPT fue meticuloso y detallado. A principios de 2023, OpenAI colaboró estrechamente con directores de casting y productores de renombre para establecer criterios específicos que las voces debían cumplir.
Estos incluían la diversidad en los orígenes de los actores, la capacidad para hablar varios idiomas, y características como una voz atemporal, accesible, cálida y que inspirara confianza. Más de 400 solicitudes fueron recibidas, y tras un arduo proceso de audiciones, 14 voces fueron inicialmente seleccionadas antes de reducir la lista a las cinco finalistas.
“Apoyamos a la comunidad creativa y trabajamos estrechamente con la industria de la actuación de voz para asegurarnos de que tomamos las medidas correctas para emitir las voces de ChatGPT. Cada actor recibe una compensación superior a las tarifas más altas del mercado, y esto continuará mientras sus voces se utilicen en nuestros productos”, informó en un comunicado la compañía.
Durante las sesiones de grabación que tuvieron lugar en San Francisco entre junio y julio de 2023, las voces de Breeze, Cove, Ember, Juniper y Sky fueron integradas cuidadosamente en el sistema ChatGPT, culminando en su lanzamiento oficial el 25 de septiembre de ese mismo año.
Desde OpenAI, se enfatizó que la pausa en el uso de la voz de Sky no solo busca aclarar malentendidos públicos, sino también proteger la privacidad y el trabajo de los actores involucrados. Aunque el nombre de la actriz detrás de Sky no ha sido revelado para respetar su anonimato, se ha confirmado que su voz natural fue empleada para crear una experiencia auténtica y genuina en ChatGPT.
Mirando hacia el futuro, OpenAI tiene planes de expandir las capacidades de voz en futuras versiones de ChatGPT, como GPT-4o, que se espera ofrezca mejoras significativas en la interacción mediante voz. Estas actualizaciones incluirán modos de voz adicionales y la integración de nuevas tecnologías para manejar interrupciones, conversaciones grupales y adaptación al tono del usuario.
La decisión de quitar temporalmente una de las voces de ChatGPT se da en medio de la llegada de GPT-4o, el modelo de lenguaje que es capaz de realizar interacciones de voz minimizando las interrupciones, gestionado las conversaciones grupales de manera efectiva, filtrando el ruido de fondo y adaptándose al tono del usuario.