Kog AI alcanza 3.000 tokens/s en GPUs estándar con inferencia en tiempo real

Kog AI ha lanzado una vista previa técnica de su motor de inferencia, demostrando que las tarjetas gráficas estándar pueden alcanzar velocidades de generación de tokens de hasta 3.000 por segundo. El sistema, probado en configuraciones de 8 tarjetas AMD MI300X y NVIDIA H200, logra estos rendimientos

Nueva librería KVBoost permite ejecutar LLMs grandes con poca VRAM

KVBoost es una nueva librería de código abierto desarrollada por el repositorio Pythongiant que acelera significativamente la inferencia de grandes modelos de lenguaje (LLM) reduciendodrásticamente los requisitos de memoria VRAM. La herramienta解决los principales problemas de rendimiento: los modelos

DeepSeek v4 Flash: Motor de inferencia más rápido y eficiente

Un equipo de ingenieros, liderado por Antirez, ha lanzado DeepSeek v4 Flash, un nuevo motor de inferencia optimizado para el modelo de lenguaje DeepSeek V4 Flash. Este motor, denominado 'ds4.c', está diseñado específicamente para este modelo y no es un framework genérico. La principal ventaja radica

Gemma 4: Google acelera modelos de lenguaje

Google ha anunciado el lanzamiento de "Redactores de Predicción de Múltiples Tokens (MTP)" para la familia de modelos Gemma 4, una actualización diseñada para acelerar significativamente la inferencia de estos modelos de lenguaje de código abierto. Estos redactores utilizan una arquitectura de decod

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

Samsung sube precios de DRAM, pero mercado baja

Samsung ha anunciado un incremento del 30% en los precios de la memoria DRAM para los contratos del segundo trimestre de 2026. Sin embargo, a pesar de este aumento previsto, los mercados minoristas y secundarios están experimentando una inesperada caída de precios. Esta divergencia se debe a varios

LLMs ejecutan programas: IA más rápida y potente

Investigadores de Percepta han demostrado la capacidad de ejecutar programas directamente dentro de modelos de lenguaje grandes (LLMs), como los transformers, logrando una velocidad de inferencia exponencialmente más rápida. El avance, anunciado el 11 de marzo de 2026, abre nuevas posibilidades para

Chip Taalas acelera Llama 3 con récord de velocidad

Una startup llamada Taalas ha lanzado un chip ASIC que ejecuta el modelo de lenguaje Llama 3.1 8B a una velocidad de inferencia de 17.000 tokens por segundo, lo que equivale a escribir aproximadamente 30 páginas A4 por segundo. La empresa afirma que su chip es 10 veces más barato en costos operativo

Modelwrap: Tinfoil verifica modelos de IA

Tinfoil ha presentado Modelwrap, una nueva herramienta para verificar la integridad de los modelos de IA, abordando una preocupación creciente en la industria: la falta de transparencia sobre qué modelos se están ejecutando realmente en las APIs de inferencia. Actualmente, los usuarios a menudo no p

Modelos de lenguaje: nueva técnica impulsa la velocidad

Investigadores han desarrollado una nueva técnica llamada Consistency Diffusion Language Models (CDLM) que acelera significativamente la inferencia de modelos de lenguaje de difusión (DLMs). CDLM logra hasta 14.5 veces más velocidad en tareas de matemáticas y programación, sin sacrificar la calidad