Un desarrollador ha documentado un proyecto personal en el que ajusta fino un modelo de lenguaje local muy pequeño —Qwen 3 de 0.600 millones de parámetros— para que clasifique preguntas del hogar en categorías como piscina, coche o climatización. La idea se enmarca en un chatbot doméstico que, antes de consultar una base de datos vectorial mediante RAG, reduce el espacio de búsqueda gracias a un paso de categorización.
El experimento compara el modelo base, usado únicamente con prompt, con dos rondas de ajuste fino mediante el framework open source Unsloth y la técnica QLoRA. Sobre una batería de 131 pruebas de integración, el modelo sin ajustar solo acierta 13 casos (10 %), ya que abusa de etiquetas genéricas e inventa categorías nuevas. Tras el primer ajuste fino, la precisión sube al 79 %, aunque persisten errores por solapamiento semántico (por ejemplo, confunde termos de agua, fuentes y piscina). La segunda ronda introduce un cambio sencillo en el prompt: asignar a cada categoría un código opaco de dos caracteres sin solapamiento semántico. Con esta modificación, la exactitud alcanza el 92 %.
El autor concluye que un LLM diminuto puede convertirse en un clasificador fiable si se entrena con un buen conjunto de datos y se reduce la ambigüedad de las salidas. Como trabajo futuro prevé refinar los datos de entrenamiento para resolver confusiones residuales, como la de calentador de agua mapeado a piscina. El código y el proceso están disponibles en un repositorio público de GitHub.
