01 Jul 2026 · Original en inglés · Artículo

WGO-Bench: benchmark y pipeline para anotar subtareas en vídeo robótico con modelos visión-lenguaje

Fuentes: Segmenting Robot Video into Actionable Subtasks

El entrenamiento de robots en tareas largas requiere algo más que una instrucción de alto nivel: necesita saber qué subtarea ocurre en cada instante y dónde termina una y empieza la siguiente. Esta entrada de blog presenta dos contribuciones principales orientadas a resolver ese problema a escala.

WGO-Bench es un nuevo benchmark de anotación de subtareas en robótica compuesto por 100 episodios de vídeo (egocéntricos y de robot) con 743 segmentos anotados que cubren 62 instrucciones de alto nivel. Se construyó combinando tres fuentes: HomER (vídeo egocéntrico humano), DROID (manipulación con brazo desde cámara externa) y Galaxea (cámara de cabeza de robot). Cada vídeo se segmentó manualmente siguiendo un protocolo estricto basado en eventos atómicos de manipulación y cambios de estado de objetos.

Los autores evaluaron más de 60 configuraciones de pipelines basados en modelos visión-lenguaje (VLM). La mejor segmentación de subtareas alcanzó 0,306 de F1, el etiquetado llegó al 61,0 % de exactitud y el mejor sistema extremo a extremo se quedó en 0,168 de F1. Los modelos Gemini dominan la tarea: Gemini 3.5 Flash supera en un 24,5 % al mejor modelo no Gemini (GPT-5.5).

El pipeline óptimo usa contact sheets para mantener bajo el coste de inferencia: 2,64 dólares por hora de vídeo en tarifa por lotes, unas 19 veces más barato que la anotación humana. Todo el sistema está disponible como código abierto dentro de Refiner, el framework de procesado de datos robóticos del equipo, junto con un ejemplo listo para ejecutar.

El trabajo sitúa a las subtareas como señal central de aprendizaje reciente (series π, RT-H, SARM) y propone una alternativa automatizada, reproducible y económica al trabajo manual de etiquetado masivo.

Temas

desarrollo seguridad

Etiquetas

robotics subtask annotations vision-language models wgo-bench refiner benchmark data annotation egocentric video robot manipulation open source

Entidades mencionadas

Droid software

GPT-5.5 software

Gemini 3.5 Flash software

Scale AI organization

Scaled And Icy es el sexto álbum de larga duración y cuarto álbum de estudio del dúo estadounidense Twenty One Pilots publicado el 21 de mayo de 2021 a través de Fueled by Ramen y Elektra. El título d

Ver en Wikipedia

Physical Intelligence organization

Physical Intelligence is bringing general-purpose AI into the physical world.

WGO-Bench software

Refiner software

HomER software

Galaxea software

macrodata labs organization

Macrodata Labs helps robotics teams turn raw physical-world data into better training datasets. Refiner, our open-source data processing framework, lets you build pipelines locally in Python, then sca

SARM software

RT-H software

Enlaces

WGO‑Bench huggingface.co

Refiner github.com

dense video captioning post labs.scale.com

Gemini Embedding 2 deepmind.google