El desarrollador Antoinezambelli ha lanzado Forge, un nuevo marco de trabajo diseñado para mejorar la fiabilidad y el rendimiento de modelos de lenguaje grandes (LLM) autoalojados. La herramienta incorpora funcionalidades de seguridad seperti análisis de rescate, reintentos sugeridos y aplicación de pasos, además de gestión de contexto consciente de VRAM. La mejor configuración actual (Ministral-3 8B Instruct Q8 en llama-server) alcanza un 86,5% en el conjunto de evaluación de 26 escenarios de Forge, y un 76% en el nivel más difícil. El marco ofrece tres modos de uso: WorkflowRunner para ejecutar bucles de agente estructurados, middleware de guardrails para integrar en flujos existentes, y servidor proxy compatible con OpenAI. Forge es compatible con Ollama, llama-server, Llamafile y Anthropic como backends, y requiere Python 3.12+.
Forge: nuevo marco para mejorar el rendimiento de LLM autoalojados
