Google presenta un nuevo modelo de IA capaz de generar video en "alta definición"

Guardar

Mountain View (EE.UU.), 14 may (EFE).- Google presentó este martes Veo, su nuevo modelo de inteligencia artificial (IA) que es capaz de generar videos de un minuto en "alta definición" en una amplia gama de estilos visuales y cinematográficos.

Desde hoy, la herramienta está disponible solo "para creadores seleccionados como vista previa privada dentro de VideoFX", pero Google planea incorporar en el "futuro" algunas capacidades de Veo a YouTube Shorts y otros productos, según anunció en el marco de su conferencia de desarrolladores, Google I/O.

Veo será el principal competidor de Sora, una herramienta similar de OpenAI que ha dejado boquiabiertos a los expertos con la nitidez y similitud a la realidad que alcanzan sus videos y que también está disponible solo para un grupo selecto de creadores.

Según anunció Google desde su sede en Mountain View (California), la nueva herramienta es capaz de generar videos con resolución de 1080p y "crea imágenes consistentes y coherentes: personas, animales y objetos se mueven de manera realista a lo largo de las tomas".

En versiones de sus competidores se han podido ver errores, como humanos con más de dos brazos, por ejemplo.

Hoy Google mostró varias creaciones cortas de sus videos de IA: un vehículo circulando por una ciudad; un velero navegando el océano y un plano corto de una mujer pestañeando, pero la empresa no detalló cuántas veces o cuánto tiempo tuvo que interactuar con la máquina para conseguir ese resultado final.

Asimismo, mostró un video con la reacción del cineasta Donald Glover y su estudio creativo, Gilga, usando esta tecnología en una granja de California.

"El modelo también comprende términos cinematográficos como 'timelapse' o 'tomas aéreas de un paisaje', lo que proporciona un nivel de control creativo sin precedentes", anota la empresa en un comunicado.

El gigante tecnológico también presentó Imagen 3, su nuevo modelo de conversión de texto a imagen capaz de generar productos "fotorrealistas", aunque la mayor crítica hacia su modelo anterior no fue la falta de calidad, sino las respuestas inexactas y sesgadas.

Por ejemplo, la herramienta generó imágenes de una mujer asiática o un hombre negro tras ser preguntado por ilustrar un "soldado alemán de 1943", cuando el nazismo estaba en auge en el país y la diversidad racial era prácticamente imposible.

Una de las cualidades de Imagen 3 que se resaltó durante el evento fue su capacidad de representar texto, "lo que ha sido un desafío para los modelos de generación de imágenes" hasta el momento.

"Esta capacidad abre posibilidades para generar mensajes de cumpleaños personalizados, diapositivas de títulos en presentaciones y más", destaca la compañía en un comunicado.

A partir de hoy, esta tecnología está disponible para creadores seleccionados como una vista previa privada dentro de ImageFX.

Mountain View (EE. UU.), 14 may (EFE).- Google presentó este martes 1.5 Flash, una nueva versión de su inteligencia artificial (IA) diseñada para ser "rápida y eficiente", como parte de su esfuerzo para convertirse en la IA de referencia.

No obstante, el anuncio se vio en parte eclipsado por su rival OpenAI, que ayer presentó ChatGPT-4o, la nueva versión gratuita, más rápida y con capacidades mejoradas de su popular 'chatbot'.

Según detalló Google hoy en su evento anual de desarrolladores, Google I/O, 1.5 Flash "se destaca en resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, extracción de datos de tablas y documentos extensos, entre otras cosas".

Esto es gracias a su entrenamiento por un proceso llamado "destilación", donde los conocimientos y habilidades más esenciales de un modelo más grande se transfieren a un modelo más pequeño y más eficiente.

Google anunció que Gemini 1.5 Flash está disponible para que los desarrolladores lo prueben en Google AI Studio y Vertex AI a partir de hoy, con un millón de tokens para comenzar y 2 millones disponibles bajo demanda.

Google abrió Gemini 1.5 Pro a los suscriptores de Gemini Advanced -que tiene un precio de 19,99 dólares al mes- en más de 35 idiomas, entre ellos el español, en 150 países.

Además, Sundar Pichai, director ejecutivo de la compañía, dijo desde un anfiteatro en la sede de la empresa en California que Gemini 1.5 Pro tendrá una ventana de contexto (la cantidad de información que un modelo de IA puede entender) de dos millones de tokens, en comparación con el millón de tokens que lee actualmente.

"Un millón de tokens abre posibilidades completamente nuevas. Es emocionante, pero creo que podemos esforzarnos aún más. Así que hoy ampliamos la ventana de contexto a dos millones de tokens", señaló Pichai entre los aplausos del público.

El gigante tecnológico también subrayó que "pronto" la nueva función de la IA de Gemini 'Gems' permitirá personalizar un chatbot, por ejemplo para crear un entrenador personal, un chef o un profesor de escritura creativa, para los suscriptores de Gemini Advanced.

Se trata de producto similar al GPT de OpenAI, que permite crear chatbots ChatGPT personalizados, o a los chats personalizados -algunos con famosos- de Meta.

Mountain View (EE. UU.), 14 may (EFE).- Google presentó este martes Proyecto Astra, su asistente de inteligencia artificial (IA) con "habilidades humanas" que le permiten ver, oír, recordar, asimilar y hablar; una herramienta futurista que previó lanzar a finales de año.

El anuncio, que hace unos años solo sería posible en el guion de una película de ciencia ficción, fue en parte eclipsado por su rival OpenAI, una empresa líder de la IA que el lunes presentó una función de asistente de voz similar.

En los dos casos, los usuarios podrán hacer una videollamada al asistente y preguntarle todo tipo de cuestiones.

Google mostró varios ejemplos -según la compañía, grabados en directo y no manipulados de ninguna manera- en los que una de sus trabajadoras en Londres preguntó al asistente qué apodo le pondría a una mascota, le pidió ayuda con programas de codificación y matemáticos, y también para encontrar sus gafas, tras mostrarle una habitación.

Otra cualidad que tienen estas tecnologías es que pueden ser interrumpidas durante sus respuestas para pasar al siguiente punto de la conversación, y pueden tener distintas personalidades, aunque en ambos ejemplos se usó la voz de una mujer.

"Estos agentes se crearon sobre nuestro modelo Gemini y otros modelos de tareas específicas, y fueron diseñados para procesar información más rápido codificando continuamente cuadros de video, combinando la entrada de vídeo y voz en una línea de tiempo de eventos y almacenando en caché esta información para recuperarla de manera eficiente", explica la empresa en un comunicado.

Google se sacó un as de la manga sorprendiendo con la posibilidad de usar esta tecnología con unas gafas inteligentes, además de con un teléfono, aunque la compañía no hizo anuncios específicos al respecto.

En su último evento de desarrolladores, Meta también apuntó que está desarrollando sus gafas inteligentes para que puedan acceder a su IA y contestar a los usuarios preguntas sobre lo que ven.

Son muchas las tecnológicas que este año han apostado por herramientas con IA que interactúan con el usuario sin la necesidad de un teléfono u ordenador -como The Rabbit R1 o Humane AI Pin-, pero ninguno, de momento, ha conseguido un éxito rotundo.

Guardar