Este artículo presenta una metodología innovadora para construir bases de conocimiento personales utilizando Modelos de Lenguaje Grandes (LLMs), que va más allá del enfoque tradicional de Recuperación Aumentada por Generación (RAG). RAG típicamente implica subir documentos, el LLM recupera fragmentos relevantes y genera respuestas, pero este proceso se repite cada vez, sin acumulación de conocimiento. La propuesta aquí es construir una 'wiki' persistente y estructurada, mantenida por el LLM, que actúa como un intermediario entre las fuentes de datos originales y el usuario.
¿Cómo funciona? En lugar de recuperar información desde cero cada vez, el LLM procesa activamente las fuentes, extrayendo información clave e integrándola en la wiki. Esto implica crear páginas de entidades, resumir temas, identificar contradicciones y fortalecer la síntesis del conocimiento. La wiki se enriquece con cada nueva fuente y pregunta, creando un repositorio de conocimiento interconectado y en constante evolución. El usuario, en este modelo, se convierte en el curador y explorador, formulando preguntas y dirigiendo al LLM, mientras que el LLM se encarga de la laboriosa tarea de resumir, cruzar referencias y organizar la información.
Las posibilidades son amplias. Puede usarse para el seguimiento de objetivos personales, investigación profunda, análisis de libros (creando una especie de 'wiki' de fan), o incluso para construir wikis internas en empresas, alimentadas por comunicaciones internas y documentos de proyectos. También es útil para análisis competitivos, planificación de viajes o la organización de notas de cursos.
El sistema se organiza en tres capas: (1) Fuentes Crudas: Los documentos originales, inmutables. (2) La Wiki: El directorio de archivos Markdown generados por el LLM, que contiene resúmenes, páginas de entidades y conexiones. (3) El Esquema: Un archivo de configuración crucial que define la estructura de la wiki, las convenciones y los flujos de trabajo para el LLM. Este esquema es co-evolutivo, definido en colaboración entre el usuario y el LLM.
El flujo de trabajo implica 'ingesta' (procesar nuevas fuentes), 'consulta' (hacer preguntas a la wiki) y 'revisión' (linting, para detectar contradicciones, información desactualizada, etc.). El 'índice' (index.md) sirve como un catálogo de la wiki, mientras que el 'registro' (log.md) mantiene un historial de las acciones realizadas. Herramientas como qmd pueden mejorar la búsqueda dentro de la wiki a medida que crece. En esencia, este enfoque transforma el LLM en un programador y la wiki en un código base de conocimiento personal.
