GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Fuentes: New Open-Source GLM-OCR Model Achieves State-of-the-Art Performance

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras como Multi-Token Prediction (MTP) y aprendizaje por refuerzo para mejorar la precisión y la eficiencia del entrenamiento. El modelo integra un codificador visual CogViT y un decodificador de lenguaje GLM-0.5B, ofreciendo resultados sobresalientes en benchmarks de comprensión de documentos, incluyendo el reconocimiento de fórmulas, tablas y extracción de información. Su diseño optimizado permite su despliegue eficiente, incluso en entornos con recursos limitados, gracias a su tamaño relativamente pequeño (0.9B parámetros) y compatibilidad con herramientas como vLLM, SGLang y Ollama. GLM-OCR se distingue por su facilidad de uso, con un SDK completo y opciones de implementación flexibles, incluy