GGUF es el formato de archivo utilizado por llama.cpp para almacenar modelos de lenguaje. Su principal ventaja es que concatena en un único archivo todos los componentes necesarios: plantillas de chat, tokens especiales y configuración del muestreador. Las plantillas de chat usan el lenguaje Jinja2 para definir el formato conversacional, incluyendo soporte para llamadas a herramientas y contenido multimedia. Los tokens especiales incluyen marcas como para fin de secuencia y para inicio, así como delimitadores para turnos de conversación y llamadas a herramientas. La configuración del muestreador permite especificar la secuencia de pasos para seleccionar el siguiente token de la distribución de probabilidades. Una reciente adición al formato GGUF permite incluir esta configuración directamente en el archivo del modelo. Entre las funcionalidades aún pendientes está la definición de gramáticas para parsear diferentes formatos de llamadas a herramientas, lo que evitaría que cada motor de inferencia implemente sus propios parsers.
GGUF: el formato que unifica todos los componentes de modelos de lenguaje en un solo archivo
