29 May 2026 · Original en inglés · Resumen IA

Kog AI alcanza 3.000 tokens/s en GPUs estándar con inferencia en tiempo real

Fuentes: Real-time LLM Inference on Standard GPUs (3,000 tokens/s per request)

Kog AI ha lanzado una vista previa técnica de su motor de inferencia, demostrando que las tarjetas gráficas estándar pueden alcanzar velocidades de generación de tokens de hasta 3.000 por segundo. El sistema, probado en configuraciones de 8 tarjetas AMD MI300X y NVIDIA H200, logra estos rendimientos ejecutando modelos pequeños (como uno de 2 mil millones de parámetros) y promete resultados similares con modelos grandes de arquitectura MoE en el futuro. Esta innovación es relevante porque desmiente la creencia de que se requiere hardware dedicado para inferencia en tiempo real. La empresa sostiene que el cuello de botella no son las FLOPS, sino el ancho de banda de memoria, y que al optimizar la pila de software y el diseño de kernels, se pueden superar las limitaciones de las plataformas de inferencia actuales. Esto es crucial para el desarrollo de agentes de IA autónomos, donde la velocidad de decodificación por solicitud define la experiencia de usuario y la productividad.

Temas

ia empresas tecnologia

Etiquetas

kog ai inteligencia artificial gpu amd nvidia inferencia agentes de ia ancho de banda

Entidades mencionadas

Kog AI location

Koga es una ciudad situada en la prefectura de Ibaraki, en Japón. Tiene una población estimada, a inicios de septiembre de 2022, de 141 161 habitantes.

Ver en Wikipedia

Kog Inference Engine software

KIE software

AMD MI300X hardware

NVIDIA H200 hardware

FP16 protocol_standard

MoE software

GPUs hardware

AI group_movement

AI agents group_movement

Nvidia organization

Nvidia es una empresa tecnológica líder en el desarrollo de GPUs, incluyendo las H200 utilizadas por Kog AI para demostrar inferencia de tokens a alta velocidad. La empresa es un actor clave en el mer

Ver en Wikipedia

Rubin hardware

MI450 hardware

Enlaces

test the speed of our 2B coding model playground.kog.ai

Qwen2.5-Coder arxiv.org

our website kog.ai