23 Jun 2026 · Original en inglés · Artículo

Modal presenta Auto Endpoints para desplegar inferencia de LLM con un solo comando

Fuentes: Introducing Modal Auto Endpoints: Optimized inference you actually own

Modal ha lanzado Modal Auto Endpoints, un servicio de inferencia de modelos de lenguaje de gran tamaño (LLM) compatible con la API de OpenAI y desplegable con una única instrucción de línea de comandos. La propuesta se dirige a equipos que quieren poseer de verdad su infraestructura de inferencia —el código, las métricas y la configuración— sin renunciar a la facilidad de uso que ofrecen los proveedores gestionados, ni a tener que montar manualmente un servicio de inferencia con ajuste de motores, benchmarks, contenedores y autoescalado.

El sistema se apoya en la plataforma de infraestructura de IA de Modal, que combina autoescalado de alto rendimiento y un runtime de contenedores propio, junto con un nuevo componente: Modal Servers, un servicio regionalizado y sin colas que añade unos 5 ms de sobrecarga al enrutamiento HTTP. Sobre esa base, Modal entrega recetas de despliegue preconfiguradas para modelos abiertos frontier como GLM 5.2, con selección de GPU, banderas del motor de inferencia y optimizaciones (incluido el uso sistemático de decodificación especulativa con la arquitectura DFlash, desarrollada con Z Lab y el equipo de SGLang).

Cada endpoint se acompaña de un panel con métricas tanto del servidor (temperatura, potencia y utilización de GPU) como del motor de inferencia (cuantiles de latencia por token, longitud de aceptación de decodificación especulativa, etc.), accesibles también vía OTEL. Empresas como Cognition, Decagon, Fathom y DoorDash ya utilizan la plataforma, y Modal expone los benchmarks para que los usuarios evalúen las compensaciones entre latencia y rendimiento antes de ajustar el despliegue a su carga.

Etiquetas

modal auto endpoints llm inference speculative decoding sglang dflash open weights models gpu autoscaling ai infrastructure opentelemetry

Entidades mencionadas

DFlash software

Cognition organization

En la Antigua Roma, a cognitionibus era una de las cuatro oficinas de la cancillería imperial romana que ayudaba al emperador en el ejercicio de su función en temas judiciales.

Ver en Wikipedia

OpenAI API protocol_standard

GLM 5.2 software

FlashAttention software

OpenTelemetry protocol_standard

SGLang software

Modal organization

El modal, rayón HWM o «fibra polinósica» es una fibra artificial de celulosa regenerada; es decir, un tipo de rayón. Normalmente se fabrica por el proceso de la viscosa; posee alta tenacidad y alto mó

Ver en Wikipedia

Charles Frye person

Charles Francis Adams Jr. fue un autor e historiador estadounidense. Fue miembro de la prominente familia Adams e hijo de Charles Francis Adams Sr. Se desempeñó como coronel en el Ejército de la Unión

Ver en Wikipedia

Deven Navani person

Hari Subbaraj person

Greta Workman person

DoorDash organization

Doordarshan es la empresa de televisión pública de la India, integrada en la radiodifusora pública Prasar Bharati. Gestiona canales de televisión a nivel nacional, regional y local en señal abierta y

Ver en Wikipedia

Modal Auto Endpoints software

Modal Servers software

Richard Gong person

Richard Sorge fue un espía soviético de origen alemán, conocido por haber trabajado para la inteligencia militar soviética. Usó el nombre en clave de Ramsay. Es considerado uno de los espías más famos

Ver en Wikipedia

Decagon location

En geometría, se denomina decágono a un polígono de diez lados y diez vértices. Tiene origen en las palabras griegas δέκα (diez) + γωνία (ángulo).

Ver en Wikipedia

Fathom organization

Una braza es una unidad de longitud náutica, usada generalmente para medir la profundidad del agua. Se llama braza porque equivale a la longitud de un par de brazos extendidos, aproximadamente dos met

Ver en Wikipedia

Z Lab organization

Z-Library es un proyecto de biblioteca fantasma de intercambio de archivos con acceso a libros de interés general, artículos de revistas académicas y textos académicos.

Ver en Wikipedia

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

Enlaces

DFlash arxiv.org

worked closely with Z Lab and the SGLang team www.lmsys.org