09 May 2026 · Original en inglés · Resumen IA

Modal mejora inferencia multimodal más de 10% con un simple diccionario Python

Fuentes: Boosting multimodal inference performance by >10% with a single Python dictionary | Modal Blog

La plataforma Modal ha logrado mejorar el rendimiento de inferencia multimodal en más de un 10% mediante la implementación de un simple diccionario Python en el motor de inferencia SGLang. El cambio, ya integrado en SGLang v0.5.10, aumentó el throughput de solicitudes de 22.2 a 25.7 req/s (un 16.2% más) y redujo la latencia media TTFT de 965ms a 838ms (-13.2%), mientras que el TPOT medio descendió de 72ms a 60ms (-17.2%). El equipo identificó que el cuello de botella residía en la función process_input_requests del scheduler de SGLang, donde se gastaban aproximadamente 3% del tiempo total del scheduler en llamadas repetidas a torch.UntypedStorage._new_shared_cuda para gestionar tensores entre procesos. La solución consistió en implementar una caché simple basada en un diccionario Python para almacenar los handles del pool de memoria GPU, evitando así el trabajo repetitivo de abrir y cerrar los mismos handles en cada iteración. Los modelos vision-language (VLMs) son cada vez más relevantes para aplicaciones como el análisis de documentos no estructurados y agentes de codificación multimodales. Modal subraya que esta optimización demuestra cómo mejoras incrementales y directas pueden generar ganancias significativas en eficiencia de inferencia de IA, siguiendo el principio de 'nunca bloquear la GPU'.

Etiquetas

sglang modal modelos multimodales optimización de inferencia ia python cuda ipc vision language models h100 gpu qwen2.5-vl machine learning

Entidades mencionadas

vLLM software

Qwen software

CUDA software

GPU hardware

tokenizer software

SGLang software

Qwen2.5-VL-3B-Instruct software

Torch Profiler software

py-spy software

flamegraph software

process_input_requests software

hash_feature software

reconstruct_on_target_device software

torch.UntypedStorage._new_shared_cuda software

Device memory hardware

CUDA Interprocess Communication protocol_standard

Saatwik Nagpal person

I build systems that make AI work at scale. At Mercor, I’m the sole engineering… · Experience: Mercor · Education: University of Southern California · Location: Los Angeles · 500+ connections on Linke

H100 hardware

Charles Frye person

Charles Francis Adams Jr. fue un autor e historiador estadounidense. Fue miembro de la prominente familia Adams e hijo de Charles Francis Adams Sr. Se desempeñó como coronel en el Ejército de la Unión

Ver en Wikipedia

modal.com organization

Monday.com es una plataforma de computación en la nube que permite a las empresas crear sus propias aplicaciones y software de administración de proyectos. El producto fue lanzado en 2014 y en julio d

Ver en Wikipedia