Ocr sin servidor: 40 líneas de código lo hacen posible

Fuentes: Developer Builds Serverless OCR with Open Model in 40 Lines of Code

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con notación matemática compleja, de manera eficiente y a un costo relativamente bajo. El desarrollador se enfrentó a la limitación de no poder ejecutar el modelo DeepSeek OCR en su hardware actual, por lo que recurrió a Modal, una plataforma que ofrece computación sin servidor con acceso a GPU. El sistema funciona desplegando un servidor FastAPI en Modal que acepta imágenes y devuelve texto en formato Markdown. La clave del proceso reside en el procesamiento por lotes, permitiendo que el modelo procese múltiples páginas simultáneamente para mejorar la velocidad. El resultado es una herramienta capaz de convertir PDFs en texto legible y buscable, abriendo la puerta a funcionalidades como la búsqueda dentro de documentos técnicos y la integración con modelos de lenguaje como Claude. El proyecto completo, incluyendo el procesamiento de un libro de ~600 páginas, costó aproximadamente 2 dólares.