26 Feb 2026 · Original en inglés · Resumen IA

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Fuentes: New Engine Dramatically Reduces Memory Requirements for Large Language Models

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria significativamente menor, manteniendo al mismo tiempo un rendimiento competitivo. La clave de esta eficiencia radica en su 'Intelligence Orchestrator', que optimiza el uso de la memoria disponible. El motor incorpora innovaciones como 'zAttention' (kernels CUDA personalizados), 'zQuantize' (cuantificación de precisión mixta), 'zKV' (caché KV cuantificado) y 'zStream' (streaming de capas). En pruebas realizadas en una GPU A100-80GB, ZSE redujo el tiempo de inicio para el modelo Qwen 7B de 45.4 segundos a 3.9 segundos, y para Qwen 32B de 120 segundos a 21.4 segundos. La instalación es sencilla a través de pip install zllm-zse, y el motor es compatible con una amplia gama de modelos de Hugging Face, así como con formatos GGUF. ZSE también ofrece una API compatible con OpenAI, facilitando la integración con aplicaciones existentes. El proyecto está disponible bajo licencia Apache 2.0 y se basa en investigaciones previas como vLLM y Flash Attention.

Temas

ia desarrollo empresas

Etiquetas

openai hugging face zse inteligencia artificial llm cuda github quantization zyora-dev llama

Entidades mencionadas

ZSE software

Qwen 7B software

Qwen 32B software

A100-80GB hardware

Qwen/Qwen2.5-Coder-7B-Instruct software

qwen-7b.zse software

Apache 2.0 regulation

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

NVMe hardware

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

Mistral software

Mistral AI SAS es una startup francesa de inteligencia artificial (IA), con sede en París. Se especializa en modelos de lenguaje grande de pesos abiertos.

Ver en Wikipedia

vLLM software

DeepSeek organization

DeepSeek es una empresa china de inteligencia artificial que desarrolla modelos extensos de lenguaje (LLM) de código abierto. Tiene sede en Hangzhou, Zhejiang, es propiedad y está financiada exclusiva

Ver en Wikipedia

Yi software

Prometheus software

PHI software

llama.cpp software

Gemma software

CUDA software

GitHub organization

GitHub es una forja para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de computadora. El software que op

Ver en Wikipedia

Kubernetes software

Kubernetes es una plataforma de código abierto para la orquestación de contenedores. Permite desplegar y automatizar la gestión de sistemas distribuidos de manera que sean capaces de escalar y auto-re

Ver en Wikipedia

Railway organization

El Railway Technical Research Institute o RTRI es una fundación japonesa de interés público que se dedica a la investigación y el desarrollo de tecnología ferroviaria. Su nombre común es Instituto de

Ver en Wikipedia

UC Berkeley organization

La Universidad de California en Berkeley, también conocida como UC Berkeley, Berkeley o Cal, es una universidad pública estadounidense con sede en Berkeley, California. Es la institución insignia del

Ver en Wikipedia

GPTQ software

HQQ software

Tri Dao person

Francisco António Machado Mota Castro Trincão, conocido como Francisco Trincão, es un futbolista portugués que juega de delantero en el Sporting C. P. de la Primeira Liga de Portugal.

Ver en Wikipedia

Runpod person

Todd Harry Rundgren es un cantante, compositor, multiinstrumentista y productor musical estadounidense. Es conocido especialmente por dos de sus álbumes, aclamados por la crítica: Something/Anything?

Ver en Wikipedia

SQLite software

SQLite es un sistema de gestión de bases de datos relacional compatible con ACID, contenida en una relativamente pequeña (~275 kiB) biblioteca escrita en C. SQLite es un proyecto de dominio público cr

Ver en Wikipedia

LLaMA software

Vast.ai location

Vastitas Borealis es la llanura más grande del planeta Marte. Vastitas Borealis se encuentra situada en las latitudes más septentrionales del planeta, y envuelve la región polar del norte de Marte. A

Ver en Wikipedia

SSD hardware

Render organization

El término renderización es un anglicismo para representación gráfica, usado en la jerga informática para referirse al proceso de generar imagen fotorrealista, o no, a partir de un modelo 2D o 3D por

Ver en Wikipedia

Redis software

PostgreSQL software

PostgreSQL, también llamado Postgres, es un sistema de gestión de bases de datos relacional orientado a objetos y de código abierto, publicado bajo la licencia PostgreSQL, similar a la BSD o la MIT.

Ver en Wikipedia

HTTP protocol_standard

El protocolo de transferencia de hipertexto es el protocolo de comunicación que permite las transferencias de información a través de archivos en la World Wide Web. Fue desarrollado por el World Wide

Ver en Wikipedia