Los avances en inteligencia artificial han transformado áreas como el procesamiento del lenguaje y la creación de imágenes y videos fotorrealistas. Sin embargo, un desafío persistente para la IA ha sido su capacidad de interactuar de manera eficiente con el mundo físico. Si bien los sistemas de IA pueden ganar partidas de ajedrez o predecir estructuras complejas de proteínas, tareas aparentemente sencillas como doblar una camisa o limpiar una habitación representan un reto que los investigadores quieren lograr.
Esto se explica a través de la paradoja de Moravec, que señala que las actividades que los humanos realizan de forma automática y sin esfuerzo requieren una ingeniería sumamente compleja para las máquinas. En respuesta a estos desafíos, la empresa Physical Intelligence ha desarrollado un sistema llamado π0 (pi-cero), diseñado para dotar a los robots de una “inteligencia física” capaz de realizar tareas del mundo real con mayor fluidez y adaptabilidad.
Cómo los robots tendrán la capacidad de realizar tareas del hogar
El modelo π0 se presenta como un modelo fundacional de propósito general para la robótica, un avance similar al que los modelos de lenguaje de gran escala (LLMs) han significado para el procesamiento de texto.
A diferencia de los LLMs, que solo comprenden y generan lenguaje, π0 integra imágenes, texto y acciones para emitir comandos precisos. Este enfoque apoya en un entrenamiento basado en experiencias físicas de robots, permitiéndole aprender y adaptarse a distintas tareas y tipos de robots.
El modelo se entrena utilizando una combinación de datos abiertos de manipulación robótica, conjuntos de datos propios de la empresa y preentrenamiento de modelos de visión-lenguaje a escala de Internet.
Esto permite que el sistema aprenda a ejecutar una variedad de tareas físicas, desde doblar ropa y recoger basura hasta ensamblar cajas. Lo que diferencia a π0 de otros sistemas es su capacidad para emitir comandos de acción continuos y de alta frecuencia, hasta 50 veces por segundo, facilitando el control hábil y preciso que se necesita para tareas complejas.
La inteligencia artificial llevada a las tareas del hogar
Una de sus aplicaciones es la capacidad de doblar ropa. Esta tarea, aparentemente simple, es en realidad un desafío para los robots debido a la imprevisibilidad de la forma y disposición de la ropa.
Mientras que un humano puede ajustar intuitivamente sus movimientos al encontrar una camisa arrugada o una prenda con pliegues inesperados, un robot necesita la capacidad de adaptarse y tomar decisiones en tiempo real. El sistema, entrenado con un amplio conjunto de datos que incluye movimientos y manipulaciones de ropa con distintos grados de dificultad, ha logrado superar este obstáculo.
El modelo es capaz de manejar una pila de ropa, transportarla a una mesa y doblarla en una pila ordenada. A diferencia de otros robots que solo pueden repetir secuencias de movimientos preprogramados, π0 puede modificar su estrategia si la tarea se complica, por ejemplo, cuando alguien interviene o si la ropa no está en la posición esperada.
Otra aplicación significativa es limpiar mesas, que implica recoger platos, cubiertos y residuos de una mesa y separarlos entre recipientes de basura y cubetas de servicio. Esta tarea requiere la manipulación de múltiples objetos de diferentes tamaños y formas, lo que supone un desafío mayor para los robots tradicionales.
El sistema, gracias a su entrenamiento en tareas complejas, ha desarrollado estrategias emergentes, como apilar platos antes de colocarlos en la cubeta o sacudir un residuo de un plato antes de desecharlo.
Cómo funciona la tecnología detrás de este sistema de IA
El entrenamiento comienza con un modelo de visión-lenguaje preentrenado en datos a escala de Internet. Estos modelos, como GPT-4V y Gemini, ya tienen una base de conocimiento semántico y de comprensión visual.
Sin embargo, para que el modelo pueda realizar tareas físicas, se le agregó una capacidad única de salida de acciones continuas mediante una técnica llamada flow matching, un tipo de modelo de difusión que permite el control motor a alta frecuencia. Esta arquitectura combina el conocimiento semántico del modelo de visión-lenguaje con datos específicos de tareas de manipulación robótica, generando un sistema que puede responder rápidamente y adaptarse a situaciones cambiantes.
El proceso de entrenamiento también incluye una fase de post-entrenamiento en la que π0 es afinado para tareas particularmente complejas. Por ejemplo, para el doblado de ropa, se emplearon datos de alta calidad y se perfeccionaron los movimientos del robot para garantizar una ejecución más precisa. Este enfoque es similar al ajuste fino que se realiza en los LLMs para adaptarlos a tareas específicas después de un preentrenamiento general.