OpenAI reveló un nuevo modelo de inteligencia artificial que modificará la manera en la que los usuarios interactuarán con ChatGPT. El chatbot ahora tendrá la capacidad de hablar para responder a las peticiones de los usuarios, además de poder entender contenido en video y texto.
“Esta actualización es mucho más rápida y mejora las capacidades en texto, visión y audio”, aseguró la CTO de OpenAI, Mira Murati, durante el evento en el que la compañía reveló y mostró como funcionará esta actualización que llegará de forma gratuita para todos los usuarios.
ChatGPT ahora tiene voz
Una de las características más interesantes de GPT-4o es su capacidad “nativamente multimodal”. Esto significa que el modelo puede generar contenido o comprender comandos en voz, texto o imágenes, lo que abre un abanico de posibilidades en la interacción entre humanos y la IA.

Antes del lanzamiento de GPT-4o, surgieron especulaciones sobre los planes de OpenAI, desde la creación de un motor de búsqueda de IA para competir con Google, hasta la introducción de un asistente de voz integrado en GPT-4, o incluso un modelo completamente nuevo, GPT-5.
Sin embargo, con el anuncio de GPT-4o, OpenAI quiso enfocarse completamente en la experiencia de usuario, ya que básicamente son las mismas posibilidades de generar contenido que la versión tradicional, pero con el añadido de hacerlo mediante voz.
Anteriormente, la interacción con ChatGPT se limitaba principalmente al texto, pero con la introducción de la voz, los usuarios ahora pueden comunicarse con el sistema de manera más intuitiva y natural. Esto se logra gracias a la capacidad de GPT-4o para procesar y generar respuestas en tiempo real, incluso captando la emoción en la voz del usuario y reproduciéndola en diferentes estilos.
Sobre su disponibilidad, OpenAI ha confirmado que GPT-4o estará disponible de forma gratuita para todos los usuarios de ChatGPT. Además, los usuarios pagos disfrutarán de límites de capacidad hasta cinco veces mayores que los usuarios gratuitos.
La implementación de la voz en ChatGPT no solo mejora la experiencia del usuario, sino que también amplía significativamente las capacidades de la plataforma. Ahora, ChatGPT no solo puede responder a consultas de texto, sino que también puede comprender y generar respuestas en función de comandos de voz, lo que lo convierte en una herramienta aún más versátil y poderosa.
Además de la voz, GPT-4o también mejora las capacidades de ChatGPT en el ámbito de la visión. Ahora, el sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.
Los desarrolladores también se beneficiarán de la disponibilidad de GPT-4o a través de la API de OpenAI. Esta API, que ofrece acceso al modelo a mitad de precio y el doble de rapidez que GPT-4 Turbo, permitirá a los desarrolladores integrar la capacidad de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de aplicaciones de IA.

Ejemplos de cómo usar ChatGPT con voz
Para entender toda esta novedad, OpenAI mostró una larga lista de ejemplos, ya que las opciones que da este nuevo modelo de lenguaje son muy grandes y los usuarios pueden encontrar opciones que van desde peticiones sencillas para una conversación, pasando por traducciones en tiempo real, hasta análisis de códigos de programación. Aquí algunos ejemplos:
- Charla casual: ChatGPT ahora puede responder de una forma más fluida, ya que no toma la voz del usuario y la convierte en texto, para luego dar un resultado en audio. Salta ese proceso y de inmediato responde con su voz, con un tono amigable, divertido y cercano. Así que se puede usar para tener una conversación casual, hacerle preguntas, realizar búsquedas y pedirle ayuda.
- Traducción: durante la presentación pusieron a prueba al ChatGPT para que interpretara en tiempo real una conversación en inglés e italiano. El asistente tomó la voz en cada idioma y la tradujo de inmediato. Siendo una herramienta útil para viajes, reuniones y demás.
- Análisis de imagen: el chatbot tendrá acceso a la cámara del usuario, por lo que será posible mostrarle imágenes para que resuelva un problema matemático, diga qué objeto es o incluso jugar piedra, papel o tijera.
- Análisis de códigos y gráficos: ChatGPT entenderá códigos de programación como lo hace en su versión tradicional, pero con la diferencia de dar respuesta en voz para que todo sea más fluido. Además, podrá recibir imágenes de la computadora para analizarlas y generar contenido.
Últimas Noticias
IA y futuro laboral, esta es la advertencia de Bill Gates que sacude gobiernos y empresas
El avance tecnológico promete cubrir la falta de profesionales con sistemas automatizados que ofrecen respuestas rápidas y personalizadas
Neobancos vs. Banca tradicional: todo lo que debes saber para tomar las mejores decisiones financieras
Es posible que algunos los consideren competencia, pero en realidad pueden complementarse al combinar la innovación tecnológica y experiencia

El oro del marketing son los datos: su industria llegaría a 12.960 millones de dólares en el mundo
Las empresas que apuestan por plataformas inteligentes están optimizando decisiones y aumentando el retorno de inversión

Él es el magnate japonés que apostó millones de dólares por Steve Jobs y el iPhone, incluso antes de crearlo
En 2005, Masayoshi Son, hizo un acuerdo de palabra con el cofundador de Apple sin firmar ningún contrato o ver un prototipo del celular

El Papa Francisco fue el primer pontífice en tener Instagram: la innovadora presencia digital en el siglo XXI
Desde 2013, el pontífice estuvo muy presente en X y YouTube para mostrar una manera diferente de llegar a sus seguidores
