Google trabaja Proyecto Jarvis, un agente impulsado por Gemini capaz de utilizar un navegador web

Guardar

Google planea presentar un agente impulsado por su modelo de Inteligencia Artificial (IA) Gemini que pueda administrar un navegador web para ayudar a los usuarios a ejecutar automáticamente tareas cotidianas, como investigar, comprar o reservar un vuelo.

Google trabaja en lo que recibe el nombre en clave 'Project Jarvis' (Proyecto Jarvis), cuya vista previa estará disponible a partir del próximo diciembre, según ha conocido recientemente The Information y recogido Engadget.

Este agente, que es capaz de controlar ordenadores, "responde a los comandos de un usuarios tomando la referencia de capturas de pantalla de lo que aparece en ella e interpretando estas imágenes antes de llevar a cabo acciones, como hacer clic en un botón o escribir en un campo de texto".

Jarvis está diseñado para funcionar en navegadores web y, más concretamente, en el que desarrolla la propia Google, Chrome, a fin de que pueda ayudar a los usuarios con tareas coticianas, como buscar en internet, hacer compras 'online' o reservar billetes de avión.

Para ello, Jarvis utilizará las capacidades de Gemini, que próximamente se actualizará con una versión más avanzada, Gemini 2.0, un cambio que también se espera que se anuncie en diciembre, tal y como ha podido conocer The Verge.

Anthropic dio a conocer hace unos días una iniciativa similar a la de Google, con su modelo de IA Claude 3.5 Sonnet, que ha mejorado su rendimiento en programación y en uso de herramientas de agente, que tiene la capacidad de utilizar un ordenador de la misma forma en que lo hace una persona.

Esto significa que ha enseñado a Claude una serie de habilidades informáticas y programas de 'software' diseñados para personas, con el objetivo de que el modelo pueda mover el cursor, hacer clic en botones o escribir texto.

Proyecto Jarvis también comparte similitudes con los últimos avances de Microsoft, que adelantó a principios de este mes que su asistente de IA, Copilot, había adquirido nuevas capacidades y que podía ver y razonar lo que se muestra en pantalla o hablar de forma natural con los usuarios mediante el modo conversacional Copilot Voice.

También lanzó la plataforma Copilot Labs, que permite probar funciones experimentales aún en desarrollo y que cuenta con la función Copilot Vision, desarrollada para ofrecer "una forma completamente nueva de interaccionar con un ordenador" y que es capaz de ver lo que hay en pantalla e interactuar con este contenido.

Guardar