GPT-4o de OpenAI acepta cualquier combinación de texto, audio e imagen con un tiempo de respuesta similar al humano

Guardar

OpenAI ha presentado su nuevo modelo de Inteligencia Artificial (IA) GPT-4o, que acepta cualquier combinación de texto, audio e imagen, y que puede responder a una entrada de voz en solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a un tiempo de respuesta humana. GPT-4o (cuya 'o' significa 'omni') es un modelo de lenguaje que admite distintas modalidades de forma nativa, esto es, que comprende y genera una combinación de entradas de texto, audio e imagen con gran velocidad, según ha explicado en su presentación la CTO de OpenAI, Mira Muratyi. Para generar una respuesta a una entrada de audio, emplea un tiempo similar al que necesitan los humanos. Esto significa que puede responder en un mínimo 232 milisegundos, aunque registra un promedio de 320 segundos de tiempo de respuesta, según han podido comprobar los desarrolladores. Para las entradas de texto en inglés, la nueva herramienta iguala el rendimiento de GPT-4 Turbo y ofrece una mejora "significativa" en entradas de texto de idiomas diferentes al inglés, que traduce en tiempo real, "siendo además mucho más rápido y un 50 por ciento más barato en la API", según ha matizado. Para OpenAI, esta herramienta, que se ha sometido a una serie de pruebas llevadas a cabo por expertos del conocido equipo rojo, "es un paso hacia una interacción persona-ordenador mucho más natural". La compañía también ha comentado la evolución de sus anteriores modelos para crear la versión GPT-4o. En primer lugar, ha señalado que hasta ahora era posible utilizar el 'Modo voz' para conversar con ChatGPT con latencias de 2,8 segundos de media en el caso de la versión GPT-3.5 y 5,4 segundos en GPT-4. Esto es posible porque se ejecuta una canalización de tres modelos separados. El primero de ellos transcribe el audio a texto. Después, el modelo GPT-3.5 o GPT-4 recoge el texto y lo emite para que un tercer modelo lo vuelva a convertir en audio. Según la desarrolladora, en este proceso GPT-4 "pierde mucha información", porque no puede observar el tono, varios interlocutores o ruidos de fondo. Tampoco puede generar risas, cánticos o expresar emociones. Por ese motivo, se ha propuesto entrenar "un único modelo de principio a fin", lo que quiere decir que todas las entradas y las salidas de texto, audio y voz son procesadas por la misma red neuronal, que combina todas estas modalidades para brindar una respuesta más realista. También ha aclarado que GPT-4o está desarrollado bajo el principio de seguridad por diseño mediante técnicas como el filtrado de datos; y que para su lanzamiento ha pasado por una fase de pruebas de las distintas versiones del modelo, que se ha ajustado y personalizado para obtener mejores resultados. OpenAI también ha aclarado que ha contado con la supervisión de más de 70 especialistas en ámbitos como la psicología y la desinformación, a fin de identificar los riesgos que introducen o amplifican las nuevas modalidades añadidas a este modelo. Debido a que la entrada de voz y audio "presenta diversos riesgos novedosos", por el momento la tecnológica solo ha habilitado la entrada y salida tanto de texto como de imagen en su nuevo modelo. En las próximas semanas la tecnológica seguirá trabajando en la infraestructura técnica y la seguridad de GPT-4o para lanzar la modalidad restante. GPT-4o se irá desplegando de forma "iterativa" y gratuita para los usuarios de la modalidad ChatGPT Plus. En las próximas semanas también lanzará la nueva versión alfa de la modalidad de voz con GPT-4o en esta misma suscripción. Por su parte, los desarrolladores ya pueden acceder a este modelo en la API para probar la modalidad de texto e imagen.

EuropaPress

Últimas Noticias

Biden dice que "uno no puede amar a su país solo cuando gana"

Biden enfatiza la importancia de aceptar el resultado electoral y reitera que el amor por el país no debe depender de ganar o perder en elecciones nacionales

El Ejército israelí ordena la evacuación de cinco barrios del norte de Gaza

El Ejército israelí clasifica áreas del norte de Gaza como peligrosas, obligando a evacuar barrios ante el incremento de actividades de milicianos de Hamás y la intensificación de la ofensiva militar

La temperatura del Mediterráneo subió más de 1 grado en 25 años, según estudios italianos

Aumento histórico de la temperatura en el mar Mediterráneo, con incrementos significativos en capas profundas, alertan sobre implicaciones para el clima y la formación de tormentas en la región

Sheinbaum se compromete a poner a mujeres indígenas en el "centro" de políticas públicas

Claudia Sheinbaum reafirma su compromiso de priorizar a las mujeres indígenas en las políticas públicas y destaca la necesidad de acciones concretas para reducir la desigualdad y la discriminación

Temas Relacionados

Últimas Noticias

Biden dice que "uno no puede amar a su país solo cuando gana"

El Ejército israelí ordena la evacuación de cinco barrios del norte de Gaza

La temperatura del Mediterráneo subió más de 1 grado en 25 años, según estudios italianos

Sheinbaum se compromete a poner a mujeres indígenas en el "centro" de políticas públicas

El Tribunal de Cuentas alerta de la ausencia de un sistema de control en partidas económicas de Presupuestos