LiteParse es una herramienta de código abierto para el parseo de documentos lanzada por LlamaIndex. Diseñada para ejecutarse íntegramente en local, ofrece análisis de texto espacial con cajas delimitadoras, sin depender de servicios en la nube ni de modelos de lenguaje propietarios.
La arquitectura se articula sobre un núcleo en Rust que combina varias bibliotecas consolidadas. Para la extracción de texto emplea PDFium, la biblioteca C de referencia en renderizado de PDF. El sistema de OCR es flexible: incorpora Tesseract de serie sin configuración adicional y permite conectarse a servidores HTTP externos como EasyOCR, PaddleOCR o implementaciones a medida. El flujo de procesamiento convierte formatos como DOCX, XLSX o PPTX mediante LibreOffice o ImageMagick, extrae el texto nativo cuando existe, aplica OCR selectivo sobre las regiones que lo requieren y reconstruye la disposición espacial mediante una proyección en cuadrícula que preserva la estructura de columnas y tablas.
Entre las funcionalidades destacadas se incluyen la generación de capturas de pantalla en PNG, pensadas para que agentes basados en LLM puedan extraer información visual que el texto por sí solo no captura, y la exportación en formatos JSON y texto plano con posiciones precisas. La salida JSON incluye el texto junto con sus coordenadas, lo que facilita la construcción de pipelines de RAG y la indexación estructurada.
El proyecto se distribuye como librería multiplataforma con bindings para Rust, Node.js/TypeScript (napi-rs), Python (PyO3) y navegador mediante WebAssembly (wasm-bindgen), además de una CLI unificada (lit) disponible en crates.io, npm y PyPI. Es compatible con Linux, macOS (Intel y ARM) y Windows, y se publica bajo licencia Apache-2.0. También puede integrarse como skill para agentes mediante la herramienta skills de npm.
La principal limitación de LiteParse es su orientación al parseo local ligero. Para documentos complejos con tablas densas, diseños multicolumna, gráficos, texto manuscrito o PDFs escaneados, los propios desarrolladores recomiendan recurrir a LlamaParse, la versión en la nube del mismo equipo, pensada para pipelines de producción. LiteParse se posiciona así como una alternativa rápida, reproducible y sin dependencia de red para casos de uso que no requieren las capacidades avanzadas de su hermano comercial.
