PDFs adaptables: humanos ven el diseño, máquinas obtienen markdown

Fuentes: Adaptive PDFs: humans see layout, machines get markdown

Los archivos PDF están diseñados para la visualización humana: almacenan coordenadas y tipografía, pero rara vez incluyen información estructural como encabezados o listas. Esto no suponía un problema hasta que los modelos de lenguaje (LLM) comenzaron a procesar PDFs de forma masiva. Al carecer de etiquetas, los extractores deben adivinar dónde termina un título y empieza un párrafo, lo que a menudo genera errores.

Una técnica reciente aprovecha una propiedad del estándar PDF (existente desde 2001) para incrustar texto de reemplazo en secuencias de contenido marcado. Los visores ignoran este texto y dibujan el contenido visual normal, pero extractores como PyMuPDF y Poppler devuelven el texto de reemplazo cuando lo encuentran. Así, un mismo archivo .pdf puede contener tanto el diseño visual como una versión en markdown con encabezados, listas y tablas.

El proceso consiste en adjuntar marcas de contenido a los elementos del PDF y definir un texto alternativo en formato markdown. El resultado es un documento que se adapta al lector: un humano ve el PDF formateado con fuentes y diseño, mientras que una máquina (un LLM o un extractor) obtiene markdown limpio y estructurado. Las pruebas con herramientas como ChatGPT y Claude muestran que reconocen correctamente los encabezados y las listas, sin necesidad de inferencia adicional.

Entre los casos de uso destacan la digitalización de documentos para alimentar modelos de IA, la accesibilidad y la publicación automatizada. El overhead de tamaño es mínimo (entre -8.5% y +15.7% en las pruebas realizadas) y no se requieren conversiones ni versiones separadas.

No obstante, la técnica tiene limitaciones: no todos los extractores soportan esta propiedad; su adopción depende de herramientas específicas. Además, requiere un paso de conversión previo para añadir las marcas. Aun así, representa un avance significativo hacia documentos verdaderamente adaptables, donde el formato se ajusta a las necesidades del lector, humano o máquina.