OpenAI ha presentado su nuevo modelo de Inteligencia Artificial (IA) GPT-4o, que acepta cualquier combinación de texto, audio e imagen, y que puede responder a una entrada de voz en solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a un tiempo de respuesta humana. GPT-4o (cuya 'o' significa 'omni') es un modelo de lenguaje que admite distintas modalidades de forma nativa, esto es, que comprende y genera una combinación de entradas de texto, audio e imagen con gran velocidad, según ha explicado en su presentación la CTO de OpenAI, Mira Muratyi. Para generar una respuesta a una entrada de audio, emplea un tiempo similar al que necesitan los humanos. Esto significa que puede responder en un mínimo 232 milisegundos, aunque registra un promedio de 320 segundos de tiempo de respuesta, según han podido comprobar los desarrolladores. Para las entradas de texto en inglés, la nueva herramienta iguala el rendimiento de GPT-4 Turbo y ofrece una mejora "significativa" en entradas de texto de idiomas diferentes al inglés, que traduce en tiempo real, "siendo además mucho más rápido y un 50 por ciento más barato en la API", según ha matizado. Para OpenAI, esta herramienta, que se ha sometido a una serie de pruebas llevadas a cabo por expertos del conocido equipo rojo, "es un paso hacia una interacción persona-ordenador mucho más natural". La compañía también ha comentado la evolución de sus anteriores modelos para crear la versión GPT-4o. En primer lugar, ha señalado que hasta ahora era posible utilizar el 'Modo voz' para conversar con ChatGPT con latencias de 2,8 segundos de media en el caso de la versión GPT-3.5 y 5,4 segundos en GPT-4. Esto es posible porque se ejecuta una canalización de tres modelos separados. El primero de ellos transcribe el audio a texto. Después, el modelo GPT-3.5 o GPT-4 recoge el texto y lo emite para que un tercer modelo lo vuelva a convertir en audio. Según la desarrolladora, en este proceso GPT-4 "pierde mucha información", porque no puede observar el tono, varios interlocutores o ruidos de fondo. Tampoco puede generar risas, cánticos o expresar emociones. Por ese motivo, se ha propuesto entrenar "un único modelo de principio a fin", lo que quiere decir que todas las entradas y las salidas de texto, audio y voz son procesadas por la misma red neuronal, que combina todas estas modalidades para brindar una respuesta más realista. También ha aclarado que GPT-4o está desarrollado bajo el principio de seguridad por diseño mediante técnicas como el filtrado de datos; y que para su lanzamiento ha pasado por una fase de pruebas de las distintas versiones del modelo, que se ha ajustado y personalizado para obtener mejores resultados. OpenAI también ha aclarado que ha contado con la supervisión de más de 70 especialistas en ámbitos como la psicología y la desinformación, a fin de identificar los riesgos que introducen o amplifican las nuevas modalidades añadidas a este modelo. Debido a que la entrada de voz y audio "presenta diversos riesgos novedosos", por el momento la tecnológica solo ha habilitado la entrada y salida tanto de texto como de imagen en su nuevo modelo. En las próximas semanas la tecnológica seguirá trabajando en la infraestructura técnica y la seguridad de GPT-4o para lanzar la modalidad restante. GPT-4o se irá desplegando de forma "iterativa" y gratuita para los usuarios de la modalidad ChatGPT Plus. En las próximas semanas también lanzará la nueva versión alfa de la modalidad de voz con GPT-4o en esta misma suscripción. Por su parte, los desarrolladores ya pueden acceder a este modelo en la API para probar la modalidad de texto e imagen.