DeepSeek-V4, un modelo de lenguaje de gran escala, ha recibido soporte inmediato (Día 0) para inferencia y entrenamiento de refuerzo gracias a SGLang y Miles, una plataforma de código abierto. Esta novedad es significativa porque permite aprovechar al máximo las capacidades del modelo desde su lanzamiento, algo inusual en el desarrollo de IA. DeepSeek-V4 introduce innovaciones como atención dispersa híbrida, conexiones hiper-conectadas con restricciones de manifold (mHC) y pesos de expertos en FP4, optimizadas para hardware de última generación como Hopper, Blackwell y Grace Blackwell. Un componente clave es ShadowRadix, un mecanismo de almacenamiento en caché de prefijos nativo que resuelve problemas de coherencia en la atención híbrida, permitiendo un manejo eficiente de contextos de hasta 1 millón de tokens. Además, se implementaron optimizaciones como HiSparse para acelerar la atención dispersa y la integración de kernels rápidos como FlashMLA. Los resultados de las pruebas de rendimiento muestran una alta velocidad de decodificación, manteniendo un rendimiento consistente incluso con prompts largos, gracias a estas innovaciones. El objetivo es ofrecer un ecosistema completo y optimizado para el desarrollo y despliegue de modelos de lenguaje avanzados.
