NVIDIA ha presentado Cosmos 3, una nueva generación de modelos fundacionales de código abierto para IA física que unifica razonamiento, generación de mundos y generación de acciones en un único modelo. Cosmos 3 emplea una arquitectura Mixture-of-Transformers (MoT) con dos torres: una 'Reasoner' basada en un modelo visión-lenguaje y una 'Generator' que produce vídeo y acciones condicionadas por el razonamiento previo.
La familia incluye dos variantes: Cosmos 3 Nano, con 16.000 millones de parámetros, optimizado para inferencia en tiempo real en GPUs workstation como la RTX PRO 6000; y Cosmos 3 Super, con 64.000 millones de parámetros, orientado a centros de datos con GPUs Hopper y Blackwell para cargas avanzadas de razonamiento físico y generación de datos sintéticos a gran escala.
El lanzamiento se distribuye de forma abierta en Hugging Face y GitHub, e incluye los checkpoints de los modelos, scripts de post-entrenamiento, microservicios Cosmos NIM para despliegue optimizado y seis conjuntos de datos sintéticos orientados a robótica, simulación física, razonamiento espacial, movimiento humano, conducción autónoma y operaciones de almacén. NVIDIA también presenta HUE (Human Evaluation), un nuevo marco que descompone la calidad del vídeo generado en preguntas binarias sobre cuatro dimensiones: alineación semántica, leyes físicas, razonamiento geométrico e integridad visual.
En pruebas comparativas, Cosmos 3 Super y Cosmos 3 Nano lideran sus respectivas categorías en VANTAGE-Bench, mientras que la familia completa es la mejor opción de código abierto en PAI-Bench, R-Bench Physics-IQ y RoboLab, y ocupa el primer puesto open source en los rankings de Artificial Analysis para generación de texto a imagen e imagen a vídeo.
