Adiós al “Ok, Google”: ahora el Asistente se activará con solo una mirada

La herramienta “Look and Talk” ya está disponible para las pantallas inteligentes Nest Hub Max

Guardar
La función "Look and Talk"
La función "Look and Talk" ya está disponible en Nest Hub Max en Estados Unidos

Google anunció una nueva función para activar su asistente virtual. Se trata de Look and Talk que significa “mirar y hablar”.

Esta opción permitirá al usuario interactuar tan solo hablando y mirando a la pantalla de los dispositivos inteligentes Nest Hub Max. No hará falta decir “Ok, Google” cada vez que se le quiera dar una instrucción o hacer un pedido al Asistente.

Esta herramienta, que se anunció durante el evento anual de desarrolladores de la compañía (Google I/O), ya está disponible en Estados Unidos para el gadget Nest mencionado anteriormente. Una vez que se active esta opción, el usuario podrá mirar la pantalla y solicitar lo que necesite.

Así por ejemplo, al ingresar a una habitación, el usuario podrá simplemente mirar a su Nest Hub Max y solicitarle que le recuerde una cita programada o que busque algún tipo de dato. Todo esto sin tener que anteponer el famoso “Ok, Google”.

Según Google, el cambio apunta a que las conversaciones con el sistema sean cada vez más naturales.

El Asistente de Google es
El Asistente de Google es capaz de entender pausas y dudas

Look and Talk está diseñado para activarse cuando el usuario configure la opción en su equipo. Tanto las herramientas Face Match como Voice Match, integradas al Asistente, reconocerán la identidad de la persona. De ese modo, sabrá cuándo corresponde activarse y responder a los comandos recibidos.

Por otra parte, con miras a cuidar la seguridad y privacidad, la compañía aclaró que el video de estas interacciones realizadas con el Asistente se procesan completamente en el dispositivo, por lo cual, los datos no se comparten con Google ni con nadie más.

Comandos rápidos solo por reconocimiento de voz

Se mejoró el sistema para que el Asistente sea capaz de entender comandos simples o frases rápidas como “encender la luz” o “poner la alarma” con tan solo escucharlos y, también en este caso, sin que el usuario deba anteponer la frase “Ok, Google”.

Es decir que bastará con que el usuario diga estas oraciones, sin siquiera mirar al Hub y el sistema realizará la acción solicitada. El usuario cuenta con la opción de habilitar o no esta función de “frases rápidas”. Si las activa, el sistema será capaz de responder a los pedidos cuando reconozca la voz del usuario, gracias a Voice Match.

El Asistente ahora también reconoce las dudas

A la hora de hablar, es habitual hacer pausas o expresiones de duda como “um” u otras interjecciones que indican que el usuario está tomándose un tiempo para finalizar su frase, o encontrar la palabra correcta. Entre humanos esto es fácil de procesar y entender pero no es tan sencillo para los sistemas de inteligencia artificial.

La novedad es que, gracias a los nuevos desarrollos implementados, ahora el Asistente de Google será capaz de comprender esas pausas y expresiones de duda en el discurso. Durante el evento se hicieron demostraciones prácticas para demostrar esa capacidad y el sistema fue capaz de interpretar esos espacios de silencio de manera adecuada.

El sistema es entrenado con
El sistema es entrenado con modelos de procesamiento de lenguaje cada vez más avanzados

El detrás de escena

En el encuentro de I/O se explicó que para desarrollar esta función se requirió un gran avance en materia de inteligencia artificial. Explicaron que se necesitan seis modelos de aprendizaje automático para procesar más de 100 señales de la cámara y el micrófono, como proximidad, orientación de la cabeza, dirección de la mirada, movimiento de los labios, reconocimiento del contexto y clasificación de intenciones.

Todo eso ocurre en tiempo real para que el dispositivo sea capaz de captar, reconocer al usuario y luego proceder a responder a sus solicitudes.

Otro punto interesante es que el año pasado se integró Real Tone, una herramienta que permite reconocer mejor los diferentes tonos de piel de los usuarios.

Y con el objetivo de profundizar el alcance de esta opción, se comenzará a utilizar la escala de tonos de Monk presentada en este evento, que es una optimización de esta función para que los sistemas sean capaces de identificar mejor todavía las diversidades.

Modelos de comprensión de lenguaje más potentes

La posibilidad de que el Asistente sea capaz de entender mayor cantidad de sutilizas como las pausas en las conversaciones es fruto del desarrollo de modelos de procesamiento del lenguaje cada vez más optimizados.

Nos estamos acercando a la fluidez de la conversación en tiempo real con el chip Tensor, que está diseñado a medida para manejar las tareas de aprendizaje automático en el dispositivo súper rápido”, destacaron desde la compañía.

Poco a poco el Asistente va logrando comprender mejor las imperfecciones del discurso humano, como las interrupciones, las interjecciones de duda y otros elementos, lo cual va haciendo posible sostener conversaciones más naturales con el sistema de inteligencia artificial.

SEGUIR LEYENDO:

Guardar