Kog AI alcanza 3.000 tokens/s en GPUs estándar con inferencia en tiempo real

Fuentes: Real-time LLM Inference on Standard GPUs (3,000 tokens/s per request)
Kog AI alcanza 3.000 tokens/s en GPUs estándar con inferencia en tiempo real
Imagen generada con IA

Kog AI ha lanzado una vista previa técnica de su motor de inferencia, demostrando que las tarjetas gráficas estándar pueden alcanzar velocidades de generación de tokens de hasta 3.000 por segundo. El sistema, probado en configuraciones de 8 tarjetas AMD MI300X y NVIDIA H200, logra estos rendimientos ejecutando modelos pequeños (como uno de 2 mil millones de parámetros) y promete resultados similares con modelos grandes de arquitectura MoE en el futuro. Esta innovación es relevante porque desmiente la creencia de que se requiere hardware dedicado para inferencia en tiempo real. La empresa sostiene que el cuello de botella no son las FLOPS, sino el ancho de banda de memoria, y que al optimizar la pila de software y el diseño de kernels, se pueden superar las limitaciones de las plataformas de inferencia actuales. Esto es crucial para el desarrollo de agentes de IA autónomos, donde la velocidad de decodificación por solicitud define la experiencia de usuario y la productividad.