SGLang

08 Jul 2026

La francesa ZML lanza gratis su servidor de inferencia ZML/LLMD para múltiples chips de IA

La startup francesa ZML, respaldada por el premio Turing Yann LeCun, ha presentado ZML/LLMD, un servidor de inferencia para modelos de lenguaje de gran tamaño capaz de ejecutarse en chips de Nvidia, AMD, Google TPU, Apple Metal e Intel Arc. Su fundador, Steeve Morin, explicó que el objetivo es rompe

29 Jun 2026

Ornith-1.0: la familia de modelos abiertos que se entrena a sí misma para programar

Ornith-1.0 es una familia de modelos de inteligencia artificial de código abierto orientada a la programación agéntica, es decir, a tareas de coding en las que el modelo no solo escribe código, sino que planifica, ejecuta comandos y opera herramientas de forma autónoma. La release incluye cuatro var

23 Jun 2026

Modal presenta Auto Endpoints para desplegar inferencia de LLM con un solo comando

Modal ha lanzado Modal Auto Endpoints, un servicio de inferencia de modelos de lenguaje de gran tamaño (LLM) compatible con la API de OpenAI y desplegable con una única instrucción de línea de comandos. La propuesta se dirige a equipos que quieren poseer de verdad su infraestructura de inferencia —e

23 Jun 2026

Baidu presenta Unlimited-OCR, un modelo de código abierto para解析 de documentos de una sola pasada y horizonte largo

Unlimited-OCR es un proyecto de código abierto desarrollado por Baidu que avanza la tarea de reconocimiento óptico de caracteres (OCR) sobre documentos completos con el objetivo de alcanzar el parsing de horizonte largo en una sola pasada, tomando como referencia DeepSeek-OCR. El repositorio ofrece

22 Jun 2026

GLM-5.2 frente a Claude Opus 4.8: comparativa práctica con un juego 3D en WebGL

El modelo abierto GLM-5.2, desarrollado por Z.ai bajo licencia MIT, se enfrenta a Claude Opus 4.8 en una prueba práctica consistente en construir un plataformas 3D en WebGL puro, sin librerías como Three.js, a partir de un único prompt. GLM-5.2 está pensado para tareas largas y agenticas: ofrece ven

10 Jun 2026

Anatomía de un kernel de paralelismo de expertos de alto rendimiento

Los modelos de lenguaje de gran tamaño (LLM) requieren coordinar muchas GPUs para funcionar. Una de las técnicas clave es el paralelismo de expertos (EP), esencial en los modelos MoE a gran escala. A diferencia de otras formas de paralelismo, cuyas comunicaciones siguen patrones fijos, en EP el rout

03 Jun 2026

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles Google ha presentado Gemma 4 12B, un nuevo modelo de inteligencia artificial de código abierto que destaca por su arquitectura multimodal unificada y por su capacidad de ejecutarse en portátiles convencionales

29 May 2026

Liquid AI lanza LFM2.5 con ventana de contexto de 128k tokens

Liquid AI ha anunciado hoy el lanzamiento de LFM2.5-8B-A1B, una evolución de su modelo de 'Mixture-of-Experts' diseñada para ejecutarse de manera eficiente y privada en hardware de consumo. Esta nueva versión, disponible bajo licencia abierta, supera a su predecesor al expandir su ventana de context

28 May 2026

Qwen3.7-Max optimiza código en hardware desconocido logrando 10x aceleración

Alibaba presentó el modelo Qwen3.7-Max, que demostró una capacidad de autonomía excepcional al optimizar un kernel de código durante 35 horas en hardware desconocido sin documentación previa. El modelo se enfrentó a procesadores T-Head ZW-M890 PPUs desconocidos para mejorar una operación de atención

18 May 2026

Modal Labs reduce arranques en frío de inteligencia artificial en gpu 40 veces más rápido

Modal Labs ha logrado reducir hasta 40 veces los tiempos de inicio en frío de aplicaciones de inferencia de inteligencia artificial sobre GPUs, pasando de varios minutos a apenas decenas de segundos. La compañía implementó cuatro optimizaciones clave: buffers de nube que mantienen GPUs inactivas dis

16 May 2026

Presentan Orthrus, framework que multiplica por 7,8 la velocidad en generación de texto con IA

Se ha presentado Orthrus, un nuevo framework de inteligencia artificial que combina la precisión de los modelos de lenguaje grandes autoregresivos con la velocidad de generación paralela de los modelos de difusión. El sistema, desarrollado por el investigador Chiennv y disponible en HuggingFace, log

09 May 2026

Modal mejora inferencia multimodal más de 10% con un simple diccionario Python

La plataforma Modal ha logrado mejorar el rendimiento de inferencia multimodal en más de un 10% mediante la implementación de un simple diccionario Python en el motor de inferencia SGLang. El cambio, ya integrado en SGLang v0.5.10, aumentó el throughput de solicitudes de 22.2 a 25.7 req/s (un 16.2%

05 May 2026

Gemma 4: Google acelera modelos de lenguaje

Google ha anunciado el lanzamiento de "Redactores de Predicción de Múltiples Tokens (MTP)" para la familia de modelos Gemma 4, una actualización diseñada para acelerar significativamente la inferencia de estos modelos de lenguaje de código abierto. Estos redactores utilizan una arquitectura de decod

26 Apr 2026

DeepSeek-V4: Lanzamiento rápido con soporte inmediato

DeepSeek-V4, un modelo de lenguaje de gran escala, ha recibido soporte inmediato (Día 0) para inferencia y entrenamiento de refuerzo gracias a SGLang y Miles, una plataforma de código abierto. Esta novedad es significativa porque permite aprovechar al máximo las capacidades del modelo desde su lanza

14 Apr 2026

LLMs de código abierto: incompatibilidad dificulta su uso

El uso de modelos de lenguaje grandes (LLM) de código abierto se enfrenta a un desafío significativo: la incompatibilidad en los formatos de llamada de herramientas. Mientras que los modelos cerrados como los de OpenAI ofrecen una integración fluida, los modelos de código abierto requieren que los d

14 Apr 2026

Modelos de lenguaje: nueva técnica supera limitaciones

I-DLM (Introspective Diffusion Language Models) representa un avance significativo en el campo de los modelos de lenguaje, abordando una limitación clave de los modelos de difusión: su inferior rendimiento en comparación con los modelos autoregresivos (AR) tradicionales. Los modelos de difusión, a d

12 Apr 2026

IA se auto-optimiza y supera expectativas

MiniMax ha desarrollado M2.7, un modelo de inteligencia artificial que se ha mejorado a sí mismo de forma autónoma, logrando resultados impresionantes en pruebas de referencia. En un proceso sin intervención humana directa, el modelo analizó sus propios fallos, modificó su código y optimizó su rendi

07 Mar 2026

Sarvam AI libera modelos de lenguaje hechos en India

Sarvam AI ha lanzado de forma abierta los modelos de lenguaje Sarvam 30B y Sarvam 105B, diseñados para razonamiento y optimizados para el despliegue eficiente en una amplia gama de hardware, desde GPUs de alto rendimiento hasta dispositivos personales. El entrenamiento se llevó a cabo íntegramente e

04 Mar 2026

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

11 Feb 2026

GLM-OCR: Nuevo OCR de Código Abierto Lidera en Precisión

Investigadores han desarrollado GLM-OCR, un nuevo modelo de código abierto para el reconocimiento óptico de caracteres (OCR) que alcanza un rendimiento de vanguardia en la comprensión de documentos complejos. Basado en la arquitectura GLM-V encoder-decoder, GLM-OCR incorpora técnicas innovadoras com

05 Feb 2026

Kimi K2.5: 100-Agent Swarms Need $500k GPUs to Run | byteiota

Moonshot AI ha lanzado Kimi K2.5, un modelo de lenguaje de código abierto de 1 billón de parámetros que utiliza 'agent swarms' (enjambres de agentes) para tareas complejas, ofreciendo una ejecución 4.5 veces más rápida que los modelos de agente único y capacidades de codificación visual a partir de

Noticias que mencionan SGLang