Covariant está construyendo ChatGPT para robots

Covariant está construyendo ChatGPT para robots

Covariante esta semana anunció el lanzamiento de RFM-1 (Robotics Foundation Model 1). Peter Chen, cofundador y director ejecutivo de la empresa derivada de inteligencia artificial de UC Berkeley, le dice a TechCrunch que la plataforma “es básicamente un modelo de lenguaje grande (LLM), pero para lenguaje de robot”.

RFM-1 es el resultado, entre otras cosas, de una enorme cantidad de datos recopilados durante el despliegue de la plataforma Brain AI de Covariant. Con el consentimiento del cliente, la startup ha estado construyendo el robot equivalente a una base de datos LLM.

“La visión del RFM-1 es impulsar los miles de millones de robots que vendrán”, afirma Chen. “En Covariant ya hemos implementado con éxito muchos robots en los almacenes. Pero ese no es el límite al que queremos llegar. Realmente queremos impulsar robots en la fabricación, el procesamiento de alimentos, el reciclaje, la agricultura, la industria de servicios e incluso en los hogares de las personas”.

La plataforma se lanza a medida que más empresas de robótica discuten el futuro de los sistemas de “propósito general”. El repentino ataque de empresas de robótica humanoide como Agility, Figure, 1X y Apptronik ha jugado un papel fundamental en esa conversación. El factor de forma es particularmente adecuado para la adaptabilidad (al igual que los humanos en los que se modela), aunque la solidez de los sistemas de software/IA integrados es otra cuestión completamente distinta.

Por ahora, el software de Covariant se implementa en gran medida en brazos robóticos industriales que realizan una variedad de tareas familiares de almacén, incluidos trabajos como recoger contenedores. Actualmente no está implementado en humanoides, aunque la compañía promete cierto nivel de agnosticismo sobre el hardware.

“Nos gusta mucho el trabajo que se realiza en el ámbito del hardware de robots de uso más general”, afirma Chen. “Al combinar el punto de inflexión de la inteligencia con el punto de inflexión del hardware es donde veremos una explosión aún mayor de aplicaciones robóticas. Pero muchos de ellos aún no han llegado a ese punto, especialmente en el lado del hardware. Es muy difícil ir más allá del vídeo escénico. ¿Cuántas personas han interactuado con un humanoide en persona? Eso te dice el grado de madurez”.

Créditos de imagen: covariante

Covariant, sin embargo, no rehuye las comparaciones humanas cuando se trata del papel que desempeña RFM-1 en los procesos de toma de decisiones de los robots. Según su material de prensa, la plataforma “proporciona a los robots la capacidad de razonar similar a la humana, lo que representa la primera vez que la IA generativa ha brindado con éxito a los robots comerciales una comprensión más profunda del lenguaje y el mundo físico”.

Este es uno de esos ámbitos en los que debemos tener cuidado con las afirmaciones, tanto en términos de comparaciones con conceptos abstractos (o incluso filosóficos) como de su eficacia real en el mundo real a lo largo del tiempo. La “capacidad humana para razonar” es un concepto amplio que significa muchas cosas diferentes para muchas personas diferentes. Aquí la noción se aplica a la capacidad del sistema para procesar datos del mundo real y determinar el mejor curso de acción para ejecutar la tarea en cuestión.

Esta es una desviación de los sistemas robóticos tradicionales que están programados para un trabajo repetidamente, hasta el infinito. Estos robots de un solo propósito han prosperado en entornos altamente estructurados, empezando por las líneas de montaje de automóviles. Siempre que haya cambios mínimos en la tarea en cuestión, un brazo robótico puede hacer su trabajo una y otra vez, sin obstáculos, hasta que llegue el momento de dar por terminado el día y recoger el reloj de bolsillo dorado por sus años de leal servicio.

Sin embargo, algo puede estropearse rápidamente, incluso con las más mínimas desviaciones. Digamos que el objeto no está colocado exactamente en la cinta transportadora o que ha habido un ajuste en la iluminación que afecta a las cámaras a bordo. Este tipo de diferencias pueden tener un gran impacto en la capacidad de ejecución del robot. Ahora imagine intentar hacer que ese robot funcione con una pieza nueva, un material nuevo o incluso que realice una tarea completamente diferente. Eso es aún más difícil.

Este es el punto donde tradicionalmente intervienen los programadores. El robot debe ser reprogramado. La mayoría de las veces, alguien de fuera de la fábrica entra en escena. Esta es una gran pérdida de recursos y tiempo. Si desea evitar esto, es necesario que suceda una de dos cosas. 1. Las personas que trabajan en el piso necesitan aprender a codificar o 2. Necesita un método nuevo y más natural para interactuar con el robot.

Si bien sería fantástico hacer lo primero, parece poco probable que las empresas estén dispuestas a invertir el dinero y esperar el tiempo necesario. Esto último es precisamente lo que Covariant intenta hacer con RFM-1. “ChatGPT para robots” no es una analogía perfecta, pero es una abreviatura razonable (especialmente a la luz de la conexión de los fundadores con OpenAI).

Desde el punto de vista del cliente, la plataforma se presenta como un campo de texto, muy parecido a la versión actual de la IA generativa orientada al consumidor. Ingrese un comando de texto como “recoge la manzana” escribiendo o con la voz, y el sistema utiliza sus datos de entrenamiento (forma, color, tamaño, etc.) para identificar el objeto frente a él que más se acerque a esa descripción.

Luego, RFM-1 genera resultados en video (en esencia, simulaciones) para determinar el mejor curso de acción utilizando la capacitación anterior. Esto último es similar a cómo nuestro cerebro calcula los resultados potenciales de una acción antes de ejecutarla.

Durante una demostración en vivo, el sistema reacciona a entradas como “recoge el objeto rojo” e incluso a la más semánticamente compleja, “recoge lo que te pones en los pies antes de ponerte los zapatos”, lo que hizo que el robot recogiera correctamente el objeto. manzana y un par de calcetines, respectivamente.

Se barajan muchas grandes ideas cuando se discute la promesa del sistema. Al menos, Covariant tiene un pedigrí impresionante entre sus fundadores. Chen estudió IA en Berkeley con Pieter Abbeel, su cofundador y científico jefe de Covariant. Abbeel también se convirtió en uno de los primeros empleados de OpenAI en 2016, un mes después de que Chen se uniera a la firma ChatGPT. Covariant se fundó al año siguiente.

Chen dice que la compañía espera que la nueva plataforma RFM-1 funcione con la “mayoría” del hardware en el que ya está implementado el software Covariant.

Fuente