Google quiere hacer que sus robots sean más inteligentes con el lanzamiento de el modelo de aprendizaje de inteligencia artificial Robotic Transformer (RT-2).
RT-2 es la nueva versión de lo que la compañía llama su modelo de visión-lenguaje-acción (VLA). El modelo enseña a los robots a reconocer mejor los patrones visuales y de lenguaje para interpretar instrucciones e inferir qué objetos son los más adecuados para la solicitud.
Los investigadores probaron RT-2 con un brazo de robot en un entorno de oficina de cocina, pidiéndole al brazo de robot que decidiera qué hace un buen martillo improvisado (era una roca) y que eligiera una bebida para darle a una persona exhausta (un Red Bull). También le pidieron al robot que moviera una lata de Coca-Cola a una imagen de Taylor Swift. El robot es un Swiftie y eso es una buena noticia para la humanidad.
El nuevo modelo fue entrenado con datos web y de robótica, aprovechando los avances en la investigación en modelos de lenguaje grandes como el propio Bard de Google y combinándolo con datos robóticos (como qué articulaciones mover), dijo la compañía en un paper. También entiende instrucciones en otros idiomas además del inglés.
Durante años, los investigadores han intentado dotar a los robots de una mejor capacidad de inferencia para solucionar cómo existir en un entorno de la vida real. James Vincent de The Verge señaló que la vida real es desordenada de forma inflexible. Los robots necesitan más instrucciones solo para hacer algo sencillo para los humanos. Por ejemplo, limpiar un derrame. Los humanos saben instintivamente qué hacer: recoger el vaso, conseguir algo para absorber el líquido, tirarlo y tener cuidado la próxima vez.
Anteriormente, enseñar a un robot llevaba mucho tiempo. Los investigadores tenían que programar las instrucciones individualmente. Pero con el poder de modelos VLA como RT-2, los robots pueden acceder a un conjunto más amplio de información para inferir qué hacer a continuación.
La primera incursión de Google en robots más inteligentes comenzó el año pasado cuando anunció que utilizaría su modelo de lenguaje y lenguaje preentrenado (LLM PaLM) en robótica, creando el sistema PaLM-SayCan para integrar LLM con la robótica física.
El nuevo robot de Google no es perfecto. The New York Times hizo una demostración en vivo del robot y reportó que identificó incorrectamente sabores de soda e identificó incorrectamente el color de una fruta.
Dependiendo del tipo de persona que seas, esta noticia es bienvenida o te recuerda a los aterradores perros robots de Black Mirror (influenciados por los robots de Boston Dynamics). De cualquier manera, deberíamos esperar un robot aún más inteligente el próximo año.