El fundador y CEO de la figura, Brett Adcock, reveló el jueves un nuevo modelo de aprendizaje automático para robots humanoides. La noticia, que llega dos semanas después de que Adcock anunció la decisión de la firma de robótica del Área de la Bahía de alejarse de una colaboración de OpenAI, se centra en Helix, un modelo de acción-idioma de visión “generalista” (VLA).
Los VLA son un nuevo fenómeno para la robótica, aprovechando los comandos de visión y lenguaje para procesar información. Actualmente, el ejemplo más conocido de la categoría es el RT-2 de Google Deepmind, que entrena a los robots a través de una combinación de video y modelos de idiomas grandes (LLM).
Helix funciona de manera similar, combinando datos visuales y indicaciones de lenguaje para controlar un robot en tiempo real. Figura escribe: “Helix muestra una fuerte generalización de objetos, poder recoger miles de artículos familiares novedosos con formas, tamaños, colores y propiedades materiales nunca antes encontradas en la capacitación, simplemente preguntando en lenguaje natural”.

En un mundo ideal, simplemente podrías decirle a un robot que haga algo y lo haría. Ahí es donde entra Helix, según la figura. La plataforma está diseñada para cerrar la brecha entre la visión y el procesamiento del lenguaje. Después de recibir un indicador de voz del lenguaje natural, el robot evalúa visualmente su entorno y luego realiza la tarea.
La figura ofrece ejemplos como “Entregue la bolsa de galletas al robot a su derecha” o “recibe la bolsa de galletas del robot a su izquierda y colóquela en el cajón abierto”. Ambos ejemplos involucran a un par de robots que trabajan juntos. Esto se debe a que Helix está diseñada para controlar dos robots a la vez, y uno ayuda al otro a realizar varias tareas domésticas.
La figura está mostrando el VLM destacando el trabajo que la compañía ha estado haciendo con su robot humanoide 02 en el entorno local. Las casas son notoriamente complicadas para los robots, dado que carecen de la estructura y la consistencia de los almacenes y fábricas.
La dificultad con el aprendizaje y el control son los principales obstáculos entre sistemas de robots complejos y el hogar. Estos problemas, junto con etiquetas de precios de cinco a seis dígitos, son la razón por la cual el robot doméstico no ha tenido prioridad para la mayoría de las compañías de robótica humanoide. En términos generales, el enfoque es construir robots para clientes industriales, mejorando la confiabilidad y reduciendo los costos antes de abordar las viviendas. Las tareas domésticas son una conversación durante unos años a partir de ahora.
Cuando TechCrunch recorrió las oficinas del Área de la Bahía de la Figura en 2024, Adcock mostró algunos de los pasos que la compañía estaba poniendo su humanoide en el entorno del hogar. Apareció en ese momento que el trabajo no se estaba priorizando, ya que la figura se centra en los pilotos del lugar de trabajo con corporaciones como BMW.

Con el anuncio de Helix del jueves, la figura está dejando en claro que la casa debería ser una prioridad por derecho propio. Es una configuración desafiante y compleja para probar este tipo de modelos de entrenamiento. Enseñar a los robots a hacer tareas complejas en la cocina, por ejemplo, los abre a una amplia gama de acciones en diferentes entornos.
“Para que los robots sean útiles en los hogares, deberán ser capaces de generar nuevos comportamientos inteligentes a pedido, especialmente para los objetos que nunca antes habían visto”, dice Figura. “Enseñar robots incluso un solo comportamiento nuevo actualmente requiere un esfuerzo humano sustancial: horas de programación manual de expertos a nivel de doctorado o miles de manifestaciones”.
La programación manual no escala para el hogar. Simplemente hay demasiadas incógnitas. Las cocinas, las salas de estar y los baños varían dramáticamente de uno a otro. Lo mismo puede decirse de las herramientas utilizadas para cocinar y limpiar. Además, las personas dejan desorden, reorganizan los muebles y prefieren una gama de iluminación ambiental diferente. Este método requiere demasiado tiempo y dinero, aunque la cifra ciertamente tiene mucho de este último.
La otra opción es el entrenamiento, y mucho. Los brazos robóticos entrenados para elegir y colocar objetos en los laboratorios a menudo usan este método. Lo que no ve son las cientos de horas de repetición es necesario para hacer una demostración lo suficientemente robusta como para asumir tareas muy variables. Para recoger algo correctamente la primera vez, un robot debe haberlo hecho cientos de veces en el pasado.
Al igual que muchos rodeados de robótica humanoide en este momento, el trabajo en Helix todavía está en una etapa muy temprana. Se debe informar a los espectadores que se produce mucho trabajo detrás de escena para crear los tipos de videos cortos y bien producidos vistos en esta publicación. El anuncio de hoy es, en esencia, una herramienta de reclutamiento diseñada para traer más ingenieros a bordo para ayudar a hacer crecer el proyecto.