El equipo de robótica de DeepMind, la compañía de inteligencia artificial de Google, presentó tres nuevos desarrollos tecnológicos que prometen mejorar la velocidad, eficacia y especialmente la seguridad en la toma de decisiones de los robots en entornos naturales y de oficina.
Se trata de los sistemas AutoRT, SARA-RT y RT-Trajectory, los cuales se plantean como una solución que buscar acercar un futuro en el que las máquinas puedan comprender y ejecutar órdenes complejas con facilidad. En otras palabras, que sean más inteligentes y autónomos.
Aunque Google no ignora el riesgo que implica tener robots mucho más capaces, es por ello que incluye una guía de seguridad denominada “Constitución del Robot”, que utiliza como principio las famosas leyes de Isaac Asimov, para garantizar que nunca intenten lastimar a un humano.
Recordemos que se componen de un conjunto de tres normas que fueron elaboradas por el escritor ruso de ciencia ficción desde 1942, las cuales indican que:
- Un robot no hará daño a un ser humano, ni por inacción permitirá que un ser humano sufra daño.
- Un robot debe cumplir las órdenes dadas por los seres humanos, a excepción de aquellas que entren en conflicto con la primera ley.
- Un robot debe proteger su propia existencia en la medida en que esta protección no entre en conflicto con la primera o con la segunda ley.
<i>AutoRT, SARA-RT, RT-Trajectory,</i> máquinas que entienden y ejecutan con autonomía
Para el caso de sus robots, el sistema de recopilación de datos de Google, AutoRT, puede utilizar un modelo de lenguaje visual (VLM) y un modelo de lenguaje grande (LLM) trabajando mano a mano para comprender su entorno, adaptarse a entornos desconocidos y decidir las tareas apropiadas.
Y la Constitución del Robot ofrece un conjunto de “indicaciones centradas en la seguridad” que instruyen al LLM a evitar elegir tareas que involucren a humanos, animales, objetos punzantes e incluso aparatos eléctricos.
Además, DeepMind programó sus robots para que se detengan automáticamente si la fuerza en sus articulaciones supera un cierto umbral e incluyó un interruptor de apagado físico que los operadores humanos pueden usar para desactivarlos.
Análisis en profundidad de cómo aprenden los robots
AutoRT es un sistema basado en la utilización de grandes modelos básicos, tales como un modelo de lenguaje visual (VLM) y un modelo de control de robot (RT-1 o RT-2), que permite a los robots recoger datos de entrenamiento en diversos entornos.
Y mediante la orquestación simultánea de múltiples robots, se recolectaron más de 77,000 pruebas robóticas en cientos de oficinas durante siete meses.
Asimismo, el enfoque de SARA-RT ha optimizado la eficiencia y rapidez de los modelos RT, logrando modelos hasta un 10.6% más precisos y un 14% más rápidos que los anteriores.
Por otro lado, RT-Trajectory aporta al entrenamiento de robots con una tasa de éxito del 63% en tareas no vistas, una mejora significativa en comparación con el 29% anterior.
Además, los protocolos de seguridad representan una parte crucial de AutoRT, debido a que cualquier integración de robots en entornos humanos requiere de desarrollo responsable.
Las medidas de seguridad, incluyendo normas inspiradas en Asimov y sistemas de parado automático para fuerzas excesivas, garantizan que la recopilación de datos y las pruebas no comprometan el bienestar humano o el de los animales.
Por su parte, SARA-RT mejora significativamente la capacidad de los transformadores robóticos al reducir la complejidad computacional de cuadrática a lineal, manteniendo la calidad del procesamiento.
Mientras que RT-Trajectory contribuye con la habilidad de generalizar los movimientos del robot, permitiendo comprender mejor las tareas físicas reales a partir de demostraciones, ya sea de humanos o representaciones visuales como vídeos de entrenamiento.
Implementación y pruebas de la tecnología robótica
Google desplegó una flota de 53 robots AutoRT en cuatro edificios de oficinas durante siete meses, alcanzando más de 77.000 tareas de prueba, con robots dirigidos de forma remota y también operando de manera completamente autónoma.
Estas máquinas, que incorporan una cámara, un brazo robótico y una base móvil, utilizan el VLM para analizar su entorno. Posteriormente, el LLM propone acciones potenciales, operando como una especie de centro de decisión para escoger la tarea más adecuada.