Una startup llamada Taalas ha lanzado un chip ASIC que ejecuta el modelo de lenguaje Llama 3.1 8B a una velocidad de inferencia de 17.000 tokens por segundo, lo que equivale a escribir aproximadamente 30 páginas A4 por segundo. La empresa afirma que su chip es 10 veces más barato en costos operativos y 10 veces más eficiente energéticamente que los sistemas de inferencia basados en GPU, además de ser 10 veces más rápido. La innovación radica en que Taalas ha "grabado" los pesos del modelo directamente en el chip, eliminando la necesidad de acceder a la memoria externa (VRAM) en cada capa del modelo, lo que solía ser un cuello de botella. El chip utiliza una arquitectura de circuito fijo y no puede ser reprogramado, pero Taalas ha desarrollado un método para personalizar las dos capas superiores para diferentes modelos, reduciendo significativamente el tiempo de desarrollo. La empresa utiliza una pequeña cantidad de SRAM en el chip para la caché KV y adaptadores LoRA. Taalas, con solo 2,5 años de antigüedad, ha logrado un avance significativo en la eficiencia de la inferencia de LLMs, aunque la fabricación de chips personalizados sigue siendo costosa.
Chip Taalas acelera Llama 3 con récord de velocidad
Fuentes:
Blog
