Baidu presenta Unlimited-OCR, un modelo de código abierto para解析 de documentos de una sola pasada y horizonte largo

Fuentes: Baidu releases Unlimited-OCR, an open-source model for one-shot long-horizon document parsing

Unlimited-OCR es un proyecto de código abierto desarrollado por Baidu que avanza la tarea de reconocimiento óptico de caracteres (OCR) sobre documentos completos con el objetivo de alcanzar el parsing de horizonte largo en una sola pasada, tomando como referencia DeepSeek-OCR. El repositorio ofrece el modelo baidu/Unlimited-OCR en Hugging Face y ModelScope, junto con el código de inferencia, dependencias y ejemplos listos para ejecutarse sobre GPU NVIDIA con CUDA 12.

El proyecto admite dos configuraciones para imágenes individuales: "gundam", pensada para documentos extensos con recorte dinámico (base_size=1024, image_size=640, crop_mode=True), y "base", que procesa la imagen completa a 1024 píxeles. Para documentos multipágina y PDF, el flujo convierte cada página en imagen mediante PyMuPDF a 300 DPI y aplica el modo base en infer_multi, con una ventana de contexto de 32 768 tokens y restricciones de n-gramas para evitar repeticiones.

Además del camino con Hugging Face Transformers, el repositorio incluye una integración con SGLang que expone un servidor compatible con la API de OpenAI. El usuario levanta el servidor con sglang.launch_server, define la atención FA3, una longitud de contexto de 32 768 y un procesador de logits personalizado (DeepseekOCRNoRepeatNGramLogitProcessor) que aplica n-gramas de tamaño 35 y ventanas configurables (128 para gundam, 1024 para base/multipágina). El script infer.py automatiza el arranque del servidor y envía peticiones concurrentes para directorios de imágenes o PDF.

El modelo resulta útil para digitalización masiva de archivos, automatización documental y casos de uso que requieran convertir PDFs extensos en texto estructurado. Entre sus dependencias se encuentran PyTorch 2.10.0, Transformers 4.57.1, SGLang y PyMuPDF 1.27.2.2. El proyecto reconoce como referencia los trabajos DeepSeek-OCR, DeepSeek-OCR-2 y PaddleOCR, y está documentado en arXiv (2606.23050).