OpenAI reveló un nuevo modelo de inteligencia artificial que modificará la manera en la que los usuarios interactuarán con ChatGPT. El chatbot ahora tendrá la capacidad de hablar para responder a las peticiones de los usuarios, además de poder entender contenido en video y texto.
“Esta actualización es mucho más rápida y mejora las capacidades en texto, visión y audio”, aseguró la CTO de OpenAI, Mira Murati, durante el evento en el que la compañía reveló y mostró como funcionará esta actualización que llegará de forma gratuita para todos los usuarios.
ChatGPT ahora tiene voz
Una de las características más interesantes de GPT-4o es su capacidad “nativamente multimodal”. Esto significa que el modelo puede generar contenido o comprender comandos en voz, texto o imágenes, lo que abre un abanico de posibilidades en la interacción entre humanos y la IA.

Antes del lanzamiento de GPT-4o, surgieron especulaciones sobre los planes de OpenAI, desde la creación de un motor de búsqueda de IA para competir con Google, hasta la introducción de un asistente de voz integrado en GPT-4, o incluso un modelo completamente nuevo, GPT-5.
Sin embargo, con el anuncio de GPT-4o, OpenAI quiso enfocarse completamente en la experiencia de usuario, ya que básicamente son las mismas posibilidades de generar contenido que la versión tradicional, pero con el añadido de hacerlo mediante voz.
Anteriormente, la interacción con ChatGPT se limitaba principalmente al texto, pero con la introducción de la voz, los usuarios ahora pueden comunicarse con el sistema de manera más intuitiva y natural. Esto se logra gracias a la capacidad de GPT-4o para procesar y generar respuestas en tiempo real, incluso captando la emoción en la voz del usuario y reproduciéndola en diferentes estilos.
Sobre su disponibilidad, OpenAI ha confirmado que GPT-4o estará disponible de forma gratuita para todos los usuarios de ChatGPT. Además, los usuarios pagos disfrutarán de límites de capacidad hasta cinco veces mayores que los usuarios gratuitos.
La implementación de la voz en ChatGPT no solo mejora la experiencia del usuario, sino que también amplía significativamente las capacidades de la plataforma. Ahora, ChatGPT no solo puede responder a consultas de texto, sino que también puede comprender y generar respuestas en función de comandos de voz, lo que lo convierte en una herramienta aún más versátil y poderosa.
Además de la voz, GPT-4o también mejora las capacidades de ChatGPT en el ámbito de la visión. Ahora, el sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.
Los desarrolladores también se beneficiarán de la disponibilidad de GPT-4o a través de la API de OpenAI. Esta API, que ofrece acceso al modelo a mitad de precio y el doble de rapidez que GPT-4 Turbo, permitirá a los desarrolladores integrar la capacidad de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de aplicaciones de IA.

Ejemplos de cómo usar ChatGPT con voz
Para entender toda esta novedad, OpenAI mostró una larga lista de ejemplos, ya que las opciones que da este nuevo modelo de lenguaje son muy grandes y los usuarios pueden encontrar opciones que van desde peticiones sencillas para una conversación, pasando por traducciones en tiempo real, hasta análisis de códigos de programación. Aquí algunos ejemplos:
- Charla casual: ChatGPT ahora puede responder de una forma más fluida, ya que no toma la voz del usuario y la convierte en texto, para luego dar un resultado en audio. Salta ese proceso y de inmediato responde con su voz, con un tono amigable, divertido y cercano. Así que se puede usar para tener una conversación casual, hacerle preguntas, realizar búsquedas y pedirle ayuda.
- Traducción: durante la presentación pusieron a prueba al ChatGPT para que interpretara en tiempo real una conversación en inglés e italiano. El asistente tomó la voz en cada idioma y la tradujo de inmediato. Siendo una herramienta útil para viajes, reuniones y demás.
- Análisis de imagen: el chatbot tendrá acceso a la cámara del usuario, por lo que será posible mostrarle imágenes para que resuelva un problema matemático, diga qué objeto es o incluso jugar piedra, papel o tijera.
- Análisis de códigos y gráficos: ChatGPT entenderá códigos de programación como lo hace en su versión tradicional, pero con la diferencia de dar respuesta en voz para que todo sea más fluido. Además, podrá recibir imágenes de la computadora para analizarlas y generar contenido.
Últimas Noticias
YouTube lanza nueva suscripción mensual con menor publicidad: cuánto vale
La plataforma de Google indica que este plan es ideal para aquellos espectadores que buscan una opción más económica. Music y los videos musicales continúan con anuncios

Desactiva la reproducción automática en Netflix con este sencillo paso a paso
Si la reproducción automática de episodios y avances interrumpe tu experiencia, te explicamos cómo desactivarla para tener el control total de lo que ves en la plataforma

Strava, la aplicación para salir a correr, se volvió el nuevo Facebook para el amor
Uno de cada cinco miembros de la Generación Z registrados en la plataforma ha tenido una cita con alguien que conoció a través de clubes de ejercicio físico

ChatGPT para el trabajo: 7 tareas que puede hacer la inteligencia artificial en segundos
Desde resúmenes de informes de investigación hasta el análisis de decisiones empresariales considerando factores de riesgo

Cuatro trucos para crear una contraseña segura y evitar que sea descifrada en poco tiempo
El proceso de creación de una credencial para una cuenta de correo o bancaria debe ser riguroso, porque almacena datos personales y financieros que pueden caer en manos de estafadores
