HALO es una metodología de código abierto para construir harnesses de agentes que se mejoran a sí mismos de forma recursiva mediante RLMs (Reinforcement Learning Models). El proyecto, desarrollado por context-labs y disponible en GitHub, ofrece una aplicación de escritorio multiplataforma, un paquete Python instalable desde PyPI (halo-engine) y ejemplos de integración con marcos como el SDK de OpenAI Agents.
El flujo principal funciona en cinco pasos: primero se recopilan trazas de ejecución del agente mediante tracing compatible con OpenTelemetry; después se introducen en el motor HALO-RLM, que las descompone para identificar patrones de fallo sistémicos; a continuación, el informe generado se envía a un agente de programación como Cursor o Claude Code para producir y aplicar cambios al harness; finalmente, el harness se redespliega y el ciclo se repite.
Según los autores, los entornos con alto tráfico generan más datos y mayor varianza entre ejecuciones, condiciones en las que HALO resulta especialmente eficaz. Sus creadores argumentan que herramientas de propósito general como Claude Code tienden a sobreajustar errores puntuales de trazas individuales en lugar de generalizar problemas a nivel de harness, lo que motivó el diseño de un RLM especializado.
El motor expone seis funciones de entrada —cuatro asíncronas y dos síncronas— que ofrecen distintos compromisos entre observabilidad y simplicidad. La configuración por defecto emplea el modelo gpt-5.4-mini, con recomendaciones explícitas de usar modelos más pequeños y baratos para síntesis y compactación. HALO admite cualquier proveedor compatible con la API de OpenAI, permite reintentos ante refusals del modelo y opcionalmente emite trazas OpenInference, ya sea a un endpoint OTLP o a un archivo JSONL local.
