Parsewise es una herramienta para equipos técnicos que necesitan convertir grandes volúmenes de documentos no estructurados —PDFs, hojas de cálculo, correos, transcripciones— en datos que respondan a un esquema definido, manteniendo la trazabilidad de cada valor hasta su fuente original. Sus fundadores, Greg y Max, la presentan como una evolución del ETL clásico: en lugar de extraer dato a dato o página a página, el sistema opera de forma agentica, comprendiendo que la información relevante puede estar repartida entre varios documentos y razonando sobre qué extraer y cómo resolver contradicciones.
El producto funciona tomando como entrada un conjunto de datos (desde cientos hasta miles de archivos) y devolviendo una salida conforme a un esquema, donde cada valor lleva asociada una cita a nivel de palabra en los documentos de origen. Los clientes pueden integrar la trazabilidad en sus propias aplicaciones mediante una API o usar la plataforma internamente. En el núcleo hay definiciones de agentes auto-mejorables que regulan las fuentes aceptables, la lógica de combinación y resolución de valores, y las reglas para señalar incertidumbre al usuario final.
En su arquitectura, Parsewise es agnóstica respecto al modelo y al proveedor cloud y admite despliegue en redes privadas. Para el razonamiento visual obtienen los mejores resultados con modelos Gemini, alcanzando resultados de referencia (SOTA) en Databricks OfficeQA, el benchmark de razonamiento fundamentado más exigente que han identificado. Internamente combinan modelos pequeños y técnicas de búsqueda exhaustiva (sin muestreo, a diferencia de RAG) con modelos de mayor capacidad para la toma de decisiones y la detección de inconsistencias. La compañía, respaldada por Y Combinator (P25), invita a la comunidad de desarrolladores a probar la herramienta.
