Covariante fue fundado en 2017 con un objetivo simple: ayudar a los robots a aprender cómo recoger mejor los objetos. Es una gran necesidad entre quienes buscan automatizar almacenes, y es mucho más compleja de lo que parece. La mayoría de los bienes que encontramos han viajado a través de un almacén en algún momento. Es una gama increíblemente amplia de tamaños, formas, texturas y colores.
La firma del Área de la Bahía ha construido un sistema basado en inteligencia artificial que entrena a los robots de la red para mejorar las selecciones a medida que avanzan. Una demostración en el suelo en ProMat de este año muestra la rapidez con que un brazo conectado es capaz de identificar, recoger y colocar una amplia gama de objetos diferentes.
El cofundador y director ejecutivo Peter Chen se sentó con TechCrunch en la feria la semana pasada para hablar sobre el aprendizaje robótico, la construcción de modelos fundamentales y, naturalmente, ChatGPT.
TechCrunch: cuando eres una startup, tiene sentido usar la mayor cantidad posible de hardware estándar.
PC: Sí. Covariant comenzó desde un lugar muy diferente. Comenzamos con software puro y IA pura. Las primeras contrataciones de la empresa fueron todos investigadores de IA. No teníamos ingenieros mecánicos, nadie en robótica. Eso nos permitió profundizar mucho más en la IA que nadie. Si miras a otras empresas de robótica [at ProMat]probablemente estén usando algún modelo listo para usar o un modelo de código abierto, cosas que se han usado en la academia.
como ROS.
Sí. ROS o bibliotecas de visión artificial de código abierto, que son geniales. Pero lo que estamos haciendo es fundamentalmente diferente. Observamos lo que ofrecen los modelos académicos de IA y no es lo suficientemente silencioso. La IA académica está construida en un entorno de laboratorio. No están diseñados para resistir las pruebas del mundo real, especialmente las pruebas de muchos clientes, millones de habilidades, millones de diferentes tipos de elementos que deben ser procesados por la misma IA.
Muchos investigadores están adoptando muchos enfoques diferentes para el aprendizaje. ¿Qué tiene de diferente el tuyo?
Gran parte del equipo fundador era de OpenAI, como tres de los cuatro cofundadores. Si observa lo que OpenAI ha hecho en los últimos tres o cuatro años en el espacio lingüístico, básicamente está adoptando un enfoque de modelo básico para el lenguaje. Antes del reciente ChatGPT, había muchas IA de procesamiento de lenguaje natural. Buscar, traducir, detección de sentimientos, detección de spam: había un montón de IA de lenguaje natural por ahí. El enfoque antes de GPT es, para cada caso de uso, entrenar una IA específica, utilizando un subconjunto de datos más pequeño. Mire los resultados ahora, y GPT básicamente elimina el campo de la traducción, y ni siquiera está capacitado para traducir. Básicamente, el enfoque del modelo de base es, en lugar de usar pequeñas cantidades de datos que son específicos para una situación o entrenar un modelo que es específico para una circunstancia, entrenemos un gran modelo generalizado de base con muchos más datos, por lo que la IA es más generalizada.
Está centrado en elegir y colocar, pero también está sentando las bases para futuras aplicaciones.
Definitivamente. La capacidad de agarre o la capacidad de recoger y colocar es definitivamente la primera capacidad general que le estamos dando a los robots. Pero si miras detrás de escena, hay mucha comprensión 3D o comprensión de objetos. Hay muchas primitivas cognitivas que se pueden generalizar a futuras aplicaciones robóticas. Dicho esto, agarrar o recoger es un espacio tan amplio que podemos trabajar en esto por un tiempo.
Vas después de elegir y colocar primero porque hay una clara necesidad de hacerlo.
Existe una clara necesidad, y también una clara falta de tecnología para ello. Lo interesante es que, si vinieras a este programa hace 10 años, habrías podido encontrar robots recolectores. Simplemente no funcionarían. La industria ha luchado con esto durante mucho tiempo. La gente decía que esto no podía funcionar sin la IA, por lo que la gente probó la IA de nicho y la IA lista para usar, y no funcionó.
Sus sistemas están ingresando a una base de datos central y cada selección informa a las máquinas cómo seleccionar en el futuro.
Sí. Lo curioso es que casi todos los artículos que tocamos pasan por un almacén en algún momento. Es casi un lugar central de limpieza de todo en el mundo físico. Cuando comienza a construir IA para almacenes, es una gran base para la IA que sale de los almacenes. Digamos que saca una manzana del campo y la lleva a una planta agrícola; ya ha visto una manzana antes. Se han visto fresas antes.
Eso es uno a uno. Recojo una manzana en un centro logístico, así que puedo recoger una manzana en un campo. De manera más abstracta, ¿cómo se pueden aplicar estos aprendizajes a otras facetas de la vida?
Si queremos dar un paso atrás de Covariant específicamente y pensar hacia dónde se dirige la tendencia tecnológica, estamos viendo una convergencia interesante de IA, software y mecatrónica. Tradicionalmente, estos tres campos están algo separados entre sí. La mecatrónica es lo que encontrarás cuando vengas a este espectáculo. Se trata de un movimiento repetible. Si habla con los vendedores, le hablarán de la fiabilidad, de cómo esta máquina puede hacer lo mismo una y otra vez.
La evolución realmente sorprendente que hemos visto en Silicon Valley en los últimos 15 a 20 años está en el software. La gente ha descifrado el código sobre cómo construir un software de aspecto realmente complejo y altamente inteligente. Todas estas aplicaciones que estamos usando son realmente personas que aprovechan las capacidades del software. Ahora estamos en el asiento delantero de la IA, con todos los increíbles avances. Cuando me preguntan qué hay más allá de los almacenes, veo que esto va realmente hacia la convergencia de estas tres tendencias para construir máquinas físicas altamente autónomas en el mundo. Necesita la convergencia de todas las tecnologías.
Mencionaste que ChatGPT entró y sorprendió a las personas que hacen software de traducción. Eso es algo que sucede en la tecnología. ¿Tiene miedo de que entre un GPT y, de hecho, tome por sorpresa el trabajo que está haciendo Covariant?
Esa es una buena pregunta para mucha gente, pero creo que teníamos una ventaja injusta en el sentido de que comenzamos con la misma creencia que tenía OpenAI con la construcción de modelos fundamentales. La IA general es un mejor enfoque que construir una IA de nicho. Eso es lo que hemos estado haciendo durante los últimos cinco años. Diría que estamos en una muy buena posición y estamos muy contentos de que OpenAI haya demostrado que esta filosofía funciona realmente bien. Estamos muy emocionados de hacer eso en el mundo de la robótica.