Modal presenta Auto Endpoints para desplegar inferencia de LLM con un solo comando

Fuentes: Introducing Modal Auto Endpoints: Optimized inference you actually own

Modal ha lanzado Modal Auto Endpoints, un servicio de inferencia de modelos de lenguaje de gran tamaño (LLM) compatible con la API de OpenAI y desplegable con una única instrucción de línea de comandos. La propuesta se dirige a equipos que quieren poseer de verdad su infraestructura de inferencia —el código, las métricas y la configuración— sin renunciar a la facilidad de uso que ofrecen los proveedores gestionados, ni a tener que montar manualmente un servicio de inferencia con ajuste de motores, benchmarks, contenedores y autoescalado.

El sistema se apoya en la plataforma de infraestructura de IA de Modal, que combina autoescalado de alto rendimiento y un runtime de contenedores propio, junto con un nuevo componente: Modal Servers, un servicio regionalizado y sin colas que añade unos 5 ms de sobrecarga al enrutamiento HTTP. Sobre esa base, Modal entrega recetas de despliegue preconfiguradas para modelos abiertos frontier como GLM 5.2, con selección de GPU, banderas del motor de inferencia y optimizaciones (incluido el uso sistemático de decodificación especulativa con la arquitectura DFlash, desarrollada con Z Lab y el equipo de SGLang).

Cada endpoint se acompaña de un panel con métricas tanto del servidor (temperatura, potencia y utilización de GPU) como del motor de inferencia (cuantiles de latencia por token, longitud de aceptación de decodificación especulativa, etc.), accesibles también vía OTEL. Empresas como Cognition, Decagon, Fathom y DoorDash ya utilizan la plataforma, y Modal expone los benchmarks para que los usuarios evalúen las compensaciones entre latencia y rendimiento antes de ajustar el despliegue a su carga.