11 Feb 2026 · Original en inglés · Resumen IA

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Fuentes: New Open-Source GLM-OCR Model Achieves State-of-the-Art Performance

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras como Multi-Token Prediction (MTP) y aprendizaje por refuerzo para mejorar la precisión y la eficiencia del entrenamiento. El modelo integra un codificador visual CogViT y un decodificador de lenguaje GLM-0.5B, ofreciendo resultados sobresalientes en benchmarks de comprensión de documentos, incluyendo el reconocimiento de fórmulas, tablas y extracción de información. Su diseño optimizado permite su despliegue eficiente, incluso en entornos con recursos limitados, gracias a su tamaño relativamente pequeño (0.9B parámetros) y compatibilidad con herramientas como vLLM, SGLang y Ollama. GLM-OCR se distingue por su facilidad de uso, con un SDK completo y opciones de implementación flexibles, incluy

Temas

ia desarrollo

Etiquetas

ocr inteligencia-artificial codigo-abierto aprendizaje-profundo glm-ocr documentos reconocimiento-de-caracteres zai-org

Entidades mencionadas

Ollama software

SGLang software

Transformers software

WeChat organization

WeChat es una aplicación multipropósito china que ofrece servicios de mensajería y llamada gratis, redes sociales, un sistema de pago online, entre otros servicios, desarrollada por Tencent.

Ver en Wikipedia

Zhipu organization

Zhipu AI (智谱AI), formalmente conocida como Beijing Zhipu Huazhang Technology, es una empresa de tecnología china especializada en inteligencia artificial. A partir de 2024, es una de las empresas "Tig

Ver en Wikipedia

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

SDK software

GLM-OCR software

vLLM software

Ley de IA regulation

Apple Silicon software

DMCA regulation

La Ley de Derechos de Autor de la Era Digital es una ley federal que regula los derechos de autor de Estados Unidos que implementa dos tratados del año 1996 de la OMPI.

Ver en Wikipedia

GitHub organization

GitHub es una forja para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de computadora. El software que op

Ver en Wikipedia

Discord organization

Discord es un servicio de mensajería instantánea y chat de voz VolP. En esta plataforma, los usuarios tienen la capacidad de comunicarse por llamadas de voz, videollamadas, mensajes de texto, o con ar

Ver en Wikipedia

GDPR regulation

El Reglamento General de Protección de Datos (RGPD) o Reglamento (UE) 2016/679, es una ley comunitaria relativa a la protección de las personas físicas en lo que respecta al tratamiento de sus datos p

Ver en Wikipedia

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia