23 Jun 2026 · Original en inglés · Artículo

Baidu presenta Unlimited-OCR, un modelo de código abierto para解析 de documentos de una sola pasada y horizonte largo

Fuentes: Baidu releases Unlimited-OCR, an open-source model for one-shot long-horizon document parsing

Unlimited-OCR es un proyecto de código abierto desarrollado por Baidu que avanza la tarea de reconocimiento óptico de caracteres (OCR) sobre documentos completos con el objetivo de alcanzar el parsing de horizonte largo en una sola pasada, tomando como referencia DeepSeek-OCR. El repositorio ofrece el modelo baidu/Unlimited-OCR en Hugging Face y ModelScope, junto con el código de inferencia, dependencias y ejemplos listos para ejecutarse sobre GPU NVIDIA con CUDA 12.

El proyecto admite dos configuraciones para imágenes individuales: "gundam", pensada para documentos extensos con recorte dinámico (base_size=1024, image_size=640, crop_mode=True), y "base", que procesa la imagen completa a 1024 píxeles. Para documentos multipágina y PDF, el flujo convierte cada página en imagen mediante PyMuPDF a 300 DPI y aplica el modo base en infer_multi, con una ventana de contexto de 32 768 tokens y restricciones de n-gramas para evitar repeticiones.

Además del camino con Hugging Face Transformers, el repositorio incluye una integración con SGLang que expone un servidor compatible con la API de OpenAI. El usuario levanta el servidor con sglang.launch_server, define la atención FA3, una longitud de contexto de 32 768 y un procesador de logits personalizado (DeepseekOCRNoRepeatNGramLogitProcessor) que aplica n-gramas de tamaño 35 y ventanas configurables (128 para gundam, 1024 para base/multipágina). El script infer.py automatiza el arranque del servidor y envía peticiones concurrentes para directorios de imágenes o PDF.

El modelo resulta útil para digitalización masiva de archivos, automatización documental y casos de uso que requieran convertir PDFs extensos en texto estructurado. Entre sus dependencias se encuentran PyTorch 2.10.0, Transformers 4.57.1, SGLang y PyMuPDF 1.27.2.2. El proyecto reconoce como referencia los trabajos DeepSeek-OCR, DeepSeek-OCR-2 y PaddleOCR, y está documentado en arXiv (2606.23050).

Temas

ciencia y salud

Etiquetas

ocr document parsing baidu deepseek-ocr paddleocr hugging face modelscope sglang pytorch arxiv

Entidades mencionadas

ModelScope software

El heliocentrismo es un modelo astronómico según el cual la Tierra y los planetas se mueven alrededor del Sol relativamente estacionario y que está en el centro del universo. Históricamente, el helioc

Ver en Wikipedia

PyMuPDF software

arXiv creative_work

Unlimited-OCR software

DeepSeek-OCR software

DeepSeek-OCR-2 software

PaddlePaddle organization

PaddleOCR software

Hugging Face software

Baidu organization

Baidu es un motor de búsqueda en idioma chino con sede en Pekín fundado a finales de 1999 por Robin Li y Eric Xu. Su diseño es similar al de Google e incluye la posibilidad de búsqueda de noticias, im

Ver en Wikipedia

SGLang software

Nvidia organization

Nvidia es una empresa tecnológica líder en el desarrollo de GPUs, incluyendo las H200 utilizadas por Kog AI para demostrar inferencia de tokens a alta velocidad. La empresa es un actor clave en el mer

Ver en Wikipedia

Enlaces

arXiv arxiv.org

ModelScope modelscope.cn