El aprendizaje robótico empieza a beneficiarse de las leyes de escalado, pero los equipos que entrenan modelos de extremo a extremo se topan con un cuello de botella persistente: la infraestructura de datos. A diferencia de los equipos de grandes modelos de lenguaje, que iteran rápido sobre canalizaciones de datos ya maduras, los grupos de robótica suelen construir sus propias herramientas desde cero, porque las soluciones existentes no están pensadas para datos multimodales y multi-frecuencia como los que requieren sus modelos. El artículo de Physical Intelligence denomina a ese coste acumulado —en velocidad de iteración, foco de ingeniería y utilización de GPUs— el "data layer tax".
El texto recorre el problema desde la evaluación hasta la recogida de datos. En evaluación, los equipos dependen de métricas proxy (modelos de recompensa, calidad de reconstrucción 3D, suavidad de trayectorias) porque ejecutar políticas reales lleva horas o días y limita la experimentación rápida. En entrenamiento, la construcción de muestras para modelos visión-lenguaje-acción requiere alinear temporalmente flujos de vídeo, estados articulares e instrucciones, y los dataloaders deben ser column-aware para evitar transferir datos innecesarios y dejar las GPUs inactivas. Además, el vídeo, que suele suponer más del 90 % del tamaño del conjunto de datos, se codifica con estructuras GOP que obligan a decodificar fotogramas intermedios para acceder a uno solo, con compromisos claros entre compresión y velocidad de acceso aleatorio. La consecuencia directa es que la complejidad del dataloader se traduce en iteraciones más lentas, exportación previa de datos y menor flexibilidad para experimentar con hiperparámetros y curación del dataset. El artículo cierra planteando la curación como siguiente pieza crítica: no basta con llevar datos a la GPU, deben ser los adecuados.
