WGO-Bench: benchmark y pipeline para anotar subtareas en vídeo robótico con modelos visión-lenguaje
El entrenamiento de robots en tareas largas requiere algo más que una instrucción de alto nivel: necesita saber qué subtarea ocurre en cada instante y dónde termina una y empieza la siguiente. Esta entrada de blog presenta dos contribuciones principales orientadas a resolver ese problema a escala.
