Triton
software · 5 menciones
Noticias que mencionan Triton
Atención Híbrida: Acelera modelos de lenguaje
El proyecto presentado explora una nueva arquitectura de atención llamada 'Atención Híbrida' para modelos de lenguaje, con un enfoque particular en la generación de código Rust. El objetivo principal es acelerar significativamente la inferencia sin comprometer la calidad del modelo. Tradicionalmente
Nvidia lanza Gluon: más potencia para GPUs
NVIDIA ha presentado Gluon, una extensión del lenguaje y compilador Triton diseñada para mejorar el rendimiento de las GPU. Gluon ofrece un mayor control a los desarrolladores al exponer más detalles internos del compilador, permitiendo optimizaciones más precisas y un mayor potencial de rendimiento
Flash Attention en TPUs: desafíos y aprendizaje
Este artículo explora los desafíos encontrados al intentar portar el algoritmo Flash Attention, optimizado para GPUs con el lenguaje Triton, a un TPU (Tensor Processing Unit). El objetivo era aprovechar la potencia gratuita de los TPUs ofrecidos en Colab. La experiencia reveló que la transición no f
IA optimiza GPUs: nuevo agente agiliza el rendimiento
RightNow AI ha presentado AutoKernel, un agente de inteligencia artificial que automatiza la optimización de kernels de GPU, inspirándose en el trabajo de autoresearch de Andrej Karpathy. AutoKernel toma cualquier modelo PyTorch, identifica los kernels de cuello de botella, los optimiza de forma aut
Rust en GPU: Async/await facilita la programación
VectorWare ha anunciado un hito significativo en la programación de GPU: la capacidad de utilizar las características `async/await` de Rust directamente en la GPU. Esto representa un avance importante hacia la visión de la empresa de facilitar a los desarrolladores la creación de aplicaciones de alt
