Un desarrollador ha presentado Aura-State, un nuevo marco de código abierto en Python diseñado para eliminar las alucinaciones y errores en los flujos de trabajo de modelos de lenguaje grandes (LLM). El marco, creado por un investigador identificado como munshi007, aborda el problema de la gestión de estado y cálculos dentro de los LLM, una fuente común de errores. Aura-State compila los flujos de trabajo de LLM en máquinas de estado formalmente verificadas, utilizando técnicas de verificación de hardware, como CTL Model Checking y el Z3 Theorem Prover, para garantizar la precisión y la seguridad. Además, incorpora Conformal Prediction para generar intervalos de confianza en los datos extraídos y MCTS Routing para manejar transiciones de estado ambiguas. En una prueba comparativa con GPT-4o-mini en transcripciones de ventas inmobiliarias, Aura-State logró una precisión del 100% en la extracción de presupuestos, con todas las pruebas de Z3 y propiedades de seguridad temporal probadas. El objetivo es cerrar la brecha entre el funcionamiento “generalmente correcto” y el funcionamiento “probablemente correcto” en las aplicaciones de LLM.
