Noticias que mencionan KV cache

Cómo los modelos de lenguaje predicen la siguiente palabra en tiempo real

Los transformers autorregresivos son la arquitectura fundamental que permite a los modelos de lenguaje grande (LLMs) generar texto token a token, prediciendo cada siguiente palabra basándose en todo lo previamente generado. Este proceso se divide en dos fases: prefill (preparación) y decode (generac

IA: Nvidia impulsa modelos con mayor contexto

La capacidad de los modelos de inteligencia artificial para mantener conversaciones coherentes se ve limitada por el "contexto de ventana", la cantidad de información que pueden procesar simultáneamente. Aunque los modelos actuales pueden manejar entre 128.000 y más de un millón de tokens, su rendim

Atención Híbrida: Acelera modelos de lenguaje

El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente

macOS: asistente de voz IA funciona sin internet

RunanywhereAI ha lanzado RCLI, un asistente de voz con inteligencia artificial diseñado para macOS que funciona completamente en el dispositivo, eliminando la necesidad de conexión a la nube o claves de API. Utilizando Apple Silicon (M1 o posterior), RCLI integra reconocimiento de voz (STT), un mode

Chip Taalas acelera Llama 3 con récord de velocidad

Una startup llamada Taalas ha lanzado un chip ASIC que ejecuta el modelo de lenguaje Llama 3.1 8B a una velocidad de inferencia de 17.000 tokens por segundo, lo que equivale a escribir aproximadamente 30 páginas A4 por segundo. La empresa afirma que su chip es 10 veces más barato en costos operativo

llama 70B corre en RTX 3090 con nuevo motor

Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de