Noticias que mencionan vLLM

Guía para montar un clúster de dos nodos AMD Strix Halo con vLLM y RoCE v2

Esta guía explica cómo configurar un clúster de dos nodos equipados con las placas base Framework Desktop Mainboard con AMD Ryzen AI MAX+ 'Strix Halo' y 128 GB de memoria unificada, conectados mediante tarjetas Intel E810-CQDA1 de 100 GbE sobre el protocolo RoCE v2, para ejecutar inferencia distribu

Resolver la ambigüedad del coreano en CPU: 7.300 palabras por segundo sin GPU

Kimchi Reader, una herramienta de aprendizaje de coreano por inmersión, necesitaba desambiguar lemas en libros completos de forma rápida y precisa. El desarrollador encaró el reto con un modelo KoELECTRA-small de 14 millones de parámetros, cuantizado a int8 y ejecutado íntegramente en CPU mediante u

Anatomía de un kernel de paralelismo de expertos de alto rendimiento

Los modelos de lenguaje de gran tamaño (LLM) requieren coordinar muchas GPUs para funcionar. Una de las técnicas clave es el paralelismo de expertos (EP), esencial en los modelos MoE a gran escala. A diferencia de otras formas de paralelismo, cuyas comunicaciones siguen patrones fijos, en EP el rout

Speculative KV coding: compresión sin pérdidas de la caché KV de LLM

Speculative KV coding es un nuevo método para reducir el tamaño de la caché de clave-valor (KV cache) de los modelos de lenguaje grandes (LLM) hasta aproximadamente cuatro veces, sin pérdida de información, partiendo de una caché ya comprimida con pérdida en fp8. El contexto de los LLM crece de for

Google lanza versiones QAT de Gemma 4 para móviles y portátiles

Google ha presentado nuevos checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que integra la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir los modelos. La novedad permite ejecutar Gemma 4 en dispositivos móviles y GPUs de co

Odiseo: un espacio de trabajo autogestionado con inteligencia artificial

Odiseo (Odysseus) es un proyecto de software que ofrece un espacio de trabajo autogestionado con inteligencia artificial, diseñado para ejecutarse en el propio hardware del usuario y priorizar la privacidad. Su objetivo es replicar la experiencia de interfaz de ChatGPT o Claude, pero de forma local

Jmaczan lanza tiny-vllm, motor educativo de inferencia LLM

El desarrollador Jmaczan ha lanzado en GitHub 'tiny-vllm', un motor de inferencia de alto rendimiento para modelos de lenguaje grande (LLM) desarrollado en C++ y CUDA. Esta iniciativa se presenta como una versión más compacta y educativa de vLLM, diseñada para derivar desde cero las matemáticas y ar

Liquid AI lanza LFM2.5 con ventana de contexto de 128k tokens

Liquid AI ha anunciado hoy el lanzamiento de LFM2.5-8B-A1B, una evolución de su modelo de 'Mixture-of-Experts' diseñada para ejecutarse de manera eficiente y privada en hardware de consumo. Esta nueva versión, disponible bajo licencia abierta, supera a su predecesor al expandir su ventana de context

Vulnerabilidad en Starlette y FastAPI permite eludir la autenticación

Investigadores de seguridad de X41 D-Sec han descubierto una vulnerabilidad crítica (CVE-2026-48710) en Starlette y, por extensión, en aplicaciones FastAPI que la utilizan, afectando a miles de proyectos, incluyendo servidores de inferencia de LLM como vLLM y LiteLLM, así como frameworks de agentes

EAGLE 3.1 soluciona el 'attention drift' en decodificación especulativa

El equipo EAGLE, en colaboración con vLLM y TorchSpec, ha presentado EAGLE 3.1, una evolución clave en el algoritmo de *speculative decoding*. Esta tecnología, ampliamente utilizada en sistemas de producción, soluciona la fragilidad de sus predecesores ante variaciones en plantillas de chat y entrad

Gemma 4: Google acelera modelos de lenguaje

Google ha anunciado el lanzamiento de "Redactores de Predicción de Múltiples Tokens (MTP)" para la familia de modelos Gemma 4, una actualización diseñada para acelerar significativamente la inferencia de estos modelos de lenguaje de código abierto. Estos redactores utilizan una arquitectura de decod

IA recuerda: Stash crea memoria persistente para agentes

Stash, una nueva capa de memoria persistente para agentes de IA, ha sido presentada por Mohamed Al-Ashaal. La herramienta busca resolver el problema de que los agentes de IA, como ChatGPT y Claude, no retienen información entre sesiones, obligando a los usuarios a repetir constantemente la misma inf

Compresión de datos: ¿por qué es clave para Kafka y más?

Este artículo explora los algoritmos de compresión de datos, motivado por la implementación de un broker de Kafka personalizado (MonKafka). La compresión es crucial para optimizar el almacenamiento y la transmisión de datos, ya que reduce el espacio requerido y el tiempo de procesamiento. Existen do

macOS: IA controla tu ordenador con 'Agent'

Un desarrollador ha lanzado 'Agent!', una innovadora aplicación nativa para macOS que permite a los usuarios controlar completamente sus Macs utilizando 17 modelos de lenguaje de IA (LLM). La aplicación, disponible en GitHub, integra Apple Intelligence de forma local, automatizando tareas complejas

LLMs de código abierto: incompatibilidad dificulta su uso

El uso de modelos de lenguaje grandes (LLM) de código abierto se enfrenta a un desafío significativo: la incompatibilidad en los formatos de llamada de herramientas. Mientras que los modelos cerrados como los de OpenAI ofrecen una integración fluida, los modelos de código abierto requieren que los d

IA se auto-optimiza y supera expectativas

MiniMax ha desarrollado M2.7, un modelo de inteligencia artificial que se ha mejorado a sí mismo de forma autónoma, logrando resultados impresionantes en pruebas de referencia. En un proceso sin intervención humana directa, el modelo analizó sus propios fallos, modificó su código y optimizó su rendi

Emprendedor gestiona varias empresas con $20 al mes

Un emprendedor, Steve Hanov, ha revelado una estrategia para operar múltiples empresas con un costo técnico mínimo, alrededor de $20 al mes. El enfoque se centra en la eficiencia y el bootstrapping, evitando la búsqueda de financiación externa y la infraestructura costosa típica de las empresas tecn

Unsloth Studio: IA fácil con su interfaz sin código

Unsloth AI ha lanzado Unsloth Studio (Beta), una interfaz de usuario web de código abierto y sin necesidad de programación para entrenar, ejecutar y exportar modelos de IA de código abierto localmente. La herramienta, disponible para Windows, Linux, WSL y MacOS (con soporte limitado para entrenamien

Sarvam AI libera modelos de lenguaje hechos en India

Sarvam AI ha lanzado de forma abierta los modelos de lenguaje Sarvam 30B y Sarvam 105B, diseñados para razonamiento y optimizados para el despliegue eficiente en una amplia gama de hardware, desde GPUs de alto rendimiento hasta dispositivos personales. El entrenamiento se llevó a cabo íntegramente e

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

Omni: IA de código abierto optimiza el trabajo

Un nuevo asistente de inteligencia artificial de código abierto llamado Omni ha sido lanzado, con el objetivo de revolucionar la búsqueda y la productividad en el entorno laboral. Desarrollado por Getomnico y disponible en GitHub, Omni se conecta a aplicaciones empresariales como Google Drive, Slack

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria sign

Modelwrap: Tinfoil verifica modelos de IA

Tinfoil ha presentado Modelwrap, una nueva herramienta para verificar la integridad de los modelos de IA, abordando una preocupación creciente en la industria: la falta de transparencia sobre qué modelos se están ejecutando realmente en las APIs de inferencia. Actualmente, los usuarios a menudo no p

Z.ai Lanza GLM-5: Modelo de Razonamiento Avanzado

Z.ai ha lanzado GLM-5, un nuevo modelo de razonamiento disponible para su ejecución local. Este modelo supera a su predecesor, GLM-4.7, en tareas de codificación, agentes y chat, y está diseñado para el razonamiento con un contexto extenso, mostrando mejoras significativas en benchmarks como Humanit

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras com

ACE-Step: Música IA de Código Abierto Desafía a la Industria

Un equipo de investigadores ha presentado ACE-Step v1.5, un modelo de música de código abierto que rivaliza con alternativas comerciales y puede ejecutarse en hardware de consumo. El modelo, disponible en GitHub, Hugging Face y ModelScope, destaca por su eficiencia, generando canciones completas en

Nanobot: IA Personal Ultraligera Revoluciona la Asistencia

Nanobot es un asistente de IA personal de código abierto y ultraligero, inspirado en Clawdbot. Con solo aproximadamente 4,000 líneas de código, es significativamente más pequeño que Clawdbot, lo que lo hace rápido y fácil de usar. Ofrece funcionalidades básicas de agente, incluyendo análisis de merc

Kimi K2.5: 100-Agent Swarms Need $500k GPUs to Run | byteiota

Moonshot AI ha lanzado Kimi K2.5, un modelo de lenguaje de código abierto de 1 billón de parámetros que utiliza 'agent swarms' (enjambres de agentes) para tareas complejas, ofreciendo una ejecución 4.5 veces más rápida que los modelos de agente único y capacidades de codificación visual a partir de