Odyssey presenta Starchild-1, el primer modelo de IA que crea audio y video en tiempo real

Fuentes: Starchild-1: The First Real-Time Multimodal World Model
Odyssey presenta Starchild-1, el primer modelo de IA que crea audio y video en tiempo real
Imagen generada con IA

Odyssey presenta Starchild-1, el primer modelo multimodal de mundo (world model) capaz de generar audio y video sincronizados en tiempo real de forma autónoma. Anunciado el 17 de mayo de 2026, este sistema aprende directamente del mundo a través de píxeles, movimiento y acciones codificadas en video a gran escala, respondiendo continuamente a entradas del usuario en streaming. A diferencia de modelos anteriores como Veo de DeepMind, que generan clips de video de duración fija offline sin interacción, Starchild-1 constituye un modelo causal multimodal que predice el siguiente estado de audio y video condicionando a observaciones pasadas y entradas dinámicas del usuario. La innovación principal radica en resolver el desafío de sincronización temporal entre audio y video, que evolucionan a frecuencias e densidades de información fundamentalmente diferentes, manteniendo coherencia multimodal durante interacciones prolongadas. El equipo desarrolló una nueva arquitectura KV-cache asíncrona y estrategia de adaptación de rollout para manejar estas diferencias temporales. Esta tecnología promete revolucionar industrias como robótica, educación, juegos, salud y defensa, permitiendo sistemas multimodales interactivos más naturales y expresivos.