NVIDIA presenta Cosmos 3, un modelo abierto para IA física

Fuentes: Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3
Imagen generada por IA con el prompt: Editorial illustration of a humanoid robot analyzing multiple video streams inside a futuristic warehouse, with neural network data overlays, blue-teal color palette, geometric grid background, no logos, no text
Imagen generada con IA

NVIDIA ha presentado Cosmos 3, una nueva generación de modelos fundacionales de código abierto para IA física que unifica razonamiento, generación de mundos y generación de acciones en un único modelo. Cosmos 3 emplea una arquitectura Mixture-of-Transformers (MoT) con dos torres: una 'Reasoner' basada en un modelo visión-lenguaje y una 'Generator' que produce vídeo y acciones condicionadas por el razonamiento previo.

La familia incluye dos variantes: Cosmos 3 Nano, con 16.000 millones de parámetros, optimizado para inferencia en tiempo real en GPUs workstation como la RTX PRO 6000; y Cosmos 3 Super, con 64.000 millones de parámetros, orientado a centros de datos con GPUs Hopper y Blackwell para cargas avanzadas de razonamiento físico y generación de datos sintéticos a gran escala.

El lanzamiento se distribuye de forma abierta en Hugging Face y GitHub, e incluye los checkpoints de los modelos, scripts de post-entrenamiento, microservicios Cosmos NIM para despliegue optimizado y seis conjuntos de datos sintéticos orientados a robótica, simulación física, razonamiento espacial, movimiento humano, conducción autónoma y operaciones de almacén. NVIDIA también presenta HUE (Human Evaluation), un nuevo marco que descompone la calidad del vídeo generado en preguntas binarias sobre cuatro dimensiones: alineación semántica, leyes físicas, razonamiento geométrico e integridad visual.

En pruebas comparativas, Cosmos 3 Super y Cosmos 3 Nano lideran sus respectivas categorías en VANTAGE-Bench, mientras que la familia completa es la mejor opción de código abierto en PAI-Bench, R-Bench Physics-IQ y RoboLab, y ocupa el primer puesto open source en los rankings de Artificial Analysis para generación de texto a imagen e imagen a vídeo.