inferencia - ojeo.com

11 Jun 2026

DiffusionGemma: Google DeepMind cambia las reglas del texto y multiplica por cuatro la velocidad en local

# DiffusionGemma: Google DeepMind cambia las reglas del texto y multiplica por cuatro la velocidad en local **Google DeepMind ha presentado DiffusionGemma, el primer modelo abierto de la familia Gemma 4 que abandona la generación autorregresiva. En lugar de escribir token a token de izquierda a der

10 Jun 2026

Xiaomi MiMo-V2.5-Pro-UltraSpeed: el primer modelo de un billón de parámetros que cruza la barrera de los 1000 tokens por segundo

**Xiaomi ha presentado MiMo-V2.5-Pro-UltraSpeed, una variante de su modelo MoE de 1,02 billones de parámetros (42B activos) capaz de generar hasta ~1200 tokens por segundo sobre un único nodo de 8 GPUs comerciales.** El hito no es solo una cifra de marketing: es la primera vez que un modelo de esca

29 May 2026

Kog AI alcanza 3.000 tokens/s en GPUs estándar con inferencia en tiempo real

Kog AI ha lanzado una vista previa técnica de su motor de inferencia, demostrando que las tarjetas gráficas estándar pueden alcanzar velocidades de generación de tokens de hasta 3.000 por segundo. El sistema, probado en configuraciones de 8 tarjetas AMD MI300X y NVIDIA H200, logra estos rendimientos

22 May 2026

Nueva librería KVBoost permite ejecutar LLMs grandes con poca VRAM

KVBoost es una nueva librería de código abierto desarrollada por el repositorio Pythongiant que acelera significativamente la inferencia de grandes modelos de lenguaje (LLM) reduciendodrásticamente los requisitos de memoria VRAM. La herramienta解决los principales problemas de rendimiento: los modelos

21 May 2026

Ex-investigadora de FAANG construí un servidor GPU de 48.000 dólares para investigación de IA

En 2024, una investigadora independiente abandonó su trabajo en una empresa FAANG para dedicarse a la investigación de inteligencia artificial. Para llevar a cabo sus experimentos de aprendizaje profundo e inferencia en modelos de lenguaje, necesitaba un servidor GPU potente. Después de investigar o

16 May 2026

Presentan Orthrus, framework que multiplica por 7,8 la velocidad en generación de texto con IA

Se ha presentado Orthrus, un nuevo framework de inteligencia artificial que combina la precisión de los modelos de lenguaje grandes autoregresivos con la velocidad de generación paralela de los modelos de difusión. El sistema, desarrollado por el investigador Chiennv y disponible en HuggingFace, log

07 May 2026

DeepSeek v4 Flash: Motor de inferencia más rápido y eficiente

Un equipo de ingenieros, liderado por Antirez, ha lanzado DeepSeek v4 Flash, un nuevo motor de inferencia optimizado para el modelo de lenguaje DeepSeek V4 Flash. Este motor, denominado 'ds4.c', está diseñado específicamente para este modelo y no es un framework genérico. La principal ventaja radica

05 May 2026

Gemma 4: Google acelera modelos de lenguaje

Google ha anunciado el lanzamiento de "Redactores de Predicción de Múltiples Tokens (MTP)" para la familia de modelos Gemma 4, una actualización diseñada para acelerar significativamente la inferencia de estos modelos de lenguaje de código abierto. Estos redactores utilizan una arquitectura de decod

04 May 2026

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

05 Apr 2026

Samsung sube precios de DRAM, pero mercado baja

Samsung ha anunciado un incremento del 30% en los precios de la memoria DRAM para los contratos del segundo trimestre de 2026. Sin embargo, a pesar de este aumento previsto, los mercados minoristas y secundarios están experimentando una inesperada caída de precios. Esta divergencia se debe a varios

13 Mar 2026

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

22 Feb 2026

Chip Taalas acelera Llama 3 con récord de velocidad

Una startup llamada Taalas ha lanzado un chip ASIC que ejecuta el modelo de lenguaje Llama 3.1 8B a una velocidad de inferencia de 17.000 tokens por segundo, lo que equivale a escribir aproximadamente 30 páginas A4 por segundo. La empresa afirma que su chip es 10 veces más barato en costos operativo

21 Feb 2026

Modelwrap: Tinfoil verifica modelos de IA

Tinfoil ha presentado Modelwrap, una nueva herramienta para verificar la integridad de los modelos de IA, abordando una preocupación creciente en la industria: la falta de transparencia sobre qué modelos se están ejecutando realmente en las APIs de inferencia. Actualmente, los usuarios a menudo no p

20 Feb 2026

Modelos de lenguaje: nueva técnica impulsa la velocidad

Investigadores han desarrollado una nueva técnica llamada Consistency Diffusion Language Models (CDLM) que acelera significativamente la inferencia de modelos de lenguaje de difusión (DLMs). CDLM logra hasta 14.5 veces más velocidad en tareas de matemáticas y programación, sin sacrificar la calidad