El entrenamiento de robots en tareas largas requiere algo más que una instrucción de alto nivel: necesita saber qué subtarea ocurre en cada instante y dónde termina una y empieza la siguiente. Esta entrada de blog presenta dos contribuciones principales orientadas a resolver ese problema a escala.
WGO-Bench es un nuevo benchmark de anotación de subtareas en robótica compuesto por 100 episodios de vídeo (egocéntricos y de robot) con 743 segmentos anotados que cubren 62 instrucciones de alto nivel. Se construyó combinando tres fuentes: HomER (vídeo egocéntrico humano), DROID (manipulación con brazo desde cámara externa) y Galaxea (cámara de cabeza de robot). Cada vídeo se segmentó manualmente siguiendo un protocolo estricto basado en eventos atómicos de manipulación y cambios de estado de objetos.
Los autores evaluaron más de 60 configuraciones de pipelines basados en modelos visión-lenguaje (VLM). La mejor segmentación de subtareas alcanzó 0,306 de F1, el etiquetado llegó al 61,0 % de exactitud y el mejor sistema extremo a extremo se quedó en 0,168 de F1. Los modelos Gemini dominan la tarea: Gemini 3.5 Flash supera en un 24,5 % al mejor modelo no Gemini (GPT-5.5).
El pipeline óptimo usa contact sheets para mantener bajo el coste de inferencia: 2,64 dólares por hora de vídeo en tarifa por lotes, unas 19 veces más barato que la anotación humana. Todo el sistema está disponible como código abierto dentro de Refiner, el framework de procesado de datos robóticos del equipo, junto con un ejemplo listo para ejecutar.
El trabajo sitúa a las subtareas como señal central de aprendizaje reciente (series π, RT-H, SARM) y propone una alternativa automatizada, reproducible y económica al trabajo manual de etiquetado masivo.
