KV cache

20 May 2026

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

04 May 2026

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

07 Apr 2026

Atención Híbrida: Acelera modelos de lenguaje

El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente

10 Mar 2026

macOS: asistente de voz IA funciona sin internet

RunanywhereAI ha lanzado RCLI, un asistente de voz con inteligencia artificial diseñado para macOS que funciona completamente en el dispositivo, eliminando la necesidad de conexión a la nube o claves de API. Utilizando Apple Silicon (M1 o posterior), RCLI integra reconocimiento de voz (STT), un mode

22 Feb 2026

Chip Taalas acelera Llama 3 con récord de velocidad

Una startup llamada Taalas ha lanzado un chip ASIC que ejecuta el modelo de lenguaje Llama 3.1 8B a una velocidad de inferencia de 17.000 tokens por segundo, lo que equivale a escribir aproximadamente 30 páginas A4 por segundo. La empresa afirma que su chip es 10 veces más barato en costos operativo

21 Feb 2026

llama 70B corre en RTX 3090 con nuevo motor