Nueva herramienta permite ver la velocidad real de modelos de lenguaje locales

Fuentes: ▍tokenspeed
Nueva herramienta permite ver la velocidad real de modelos de lenguaje locales
Imagen generada con IA

Una nueva herramienta visualiza en tiempo real la velocidad de generación de tokens de modelos de lenguaje locales, permitiendo a usuarios experimentar con distintas tasas de generación que van desde 5 hasta 800 tokens por segundo. La aplicación muestra cuatro modos de visualización: código con resaltado de sintaxis, texto Prosa, pensamiento (imitando modelos de razonamiento) y agente (alternando llamadas a herramientas). Los usuarios pueden comparar velocidades típicas: 5 tok/s equivalente a modelos Raspberry-Pi, 60 tok/s para Claude o GPT hosted, 200 tok/s en territorio Groq y 800 tok/s en Cerebras. El objetivo es cerrar la brecha entre los números abstractos de los benchmark y la experiencia perceptual real, ya que el código es más token-denso que la prosa, haciendo que la misma velocidad se perciba de manera muy diferente según el contenido.