29 Jun 2026 · Original en inglés · Artículo

vLLM Semantic Router: colaboración entre modelos como primitiva de servicio abierta

Fuentes: Micro-Agent: Beat Frontier Models with Collaboration inside Model API

vLLM Semantic Router plantea que la siguiente capa clave en la inferencia de IA no es el modelo frontera, sino el router que tiene delante. Un router puede reducir costes eligiendo el modelo adecuado para cada petición, aplicar políticas de seguridad enviando dominios sensibles a modelos más estrictos, y coordinar nube y edge manteniendo la latencia baja cuando conviene. El artículo va más allá: sostiene que el router puede hacer que el modelo sea mejor sin cambiar pesos ni obligar a cada aplicación a montar un agent graph propio, convirtiendo una llamada a la API en una colaboración acotada dentro de la capa de servicio. Inspirado por propuestas como Sakana Fugu, Conductor y Trinity, el proyecto lo lleva al terreno abierto. Detrás de una identidad de modelo estable, el router selecciona una receta, reparte el trabajo entre varios modelos, recoge respuestas, mide el desacuerdo, sintetiza la respuesta final y devuelve una respuesta compatible con OpenAI. El runtime, llamado looper, ejecuta micro-agentes acotados con cinco patrones principales: Confidence (escalado secuencial según confianza), Ratings (conjunto en paralelo con tope de concurrencia), ReMoM (mixto repetido con cuórum y síntesis), Fusion (panel de jueces con desacuerdo como señal) y Workflows (planificador, parcheador, verificador y finalizador con presupuesto y topología fijos). El usuario sigue viendo un único nombre de modelo, vllm-sr/auto, mientras el router elige el bucle adecuado según dificultad, riesgo, contrato de salida, latencia y coste. La conclusión central es que el mejor bucle depende de la tarea: GPQA-Diamond se beneficia de ReMoM con respuesta estricta, LiveCodeBench requiere detección de restricciones y robustez ante tests ocultos, y Humanity's Last Exam necesita resolución de desacuerdos y formato exacto. La receta correcta siempre está moldeada por el problema.

Temas

desarrollo seguridad

Etiquetas

vllm semantic router model routing ai inference llm orchestration open source ensemble methods sakana fugu openai api micro-agents

Entidades mencionadas

vLLM software

LiveCodeBench protocol_standard

Conductor software

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

vLLM Semantic Router software

Sakana Fugu software

Trinity software

GPQA-Diamond protocol_standard

Humanity's Last Exam event

AutoMix software

Enlaces

Sakana Fugu sakana.ai

Fugu technical report arxiv.org

Conductor arxiv.org

Trinity arxiv.org

Agentic Intelligence Lab agentic-in.ai