SwiGLU
software · 5 menciones
Noticias que mencionan SwiGLU
GuppyLM: IA accesible para todos en 5 minutos
Un investigador ha desarrollado "GuppyLM", un modelo de lenguaje pequeño (aproximadamente 9 millones de parámetros) que imita la personalidad de un pez llamado Guppy. El proyecto, disponible en GitHub, busca demostrar que el entrenamiento de modelos de lenguaje no requiere conocimientos avanzados ni
NanoGPT: Entrenamiento de IA más eficiente desafía modelos existentes
Este artículo de Q Labs describe un avance significativo en la eficiencia del uso de datos en el entrenamiento de modelos de lenguaje, logrando una mejora de 10 veces utilizando su técnica 'NanoGPT Slowrun'. Esto desafía las leyes de escalamiento convencionales, como las propuestas por Chinchilla, q
IA: Menos datos, más cálculo, ¿el nuevo reto?
El campo de la inteligencia artificial, y en particular el modelado del lenguaje, enfrenta un desafío creciente: la escasez de datos. Si bien la capacidad de cómputo ha aumentado exponencialmente, la cantidad de datos de entrenamiento disponibles no sigue el mismo ritmo. Esto crea un cuello de botel
Ajedrez: Función Hard-Swish frena a motor NNUE
Un investigador ha experimentado con nuevas funciones de activación, específicamente Swish y SwiGLU, en el modelo NNUE de Viridithas, un motor de ajedrez. Inicialmente, la sustitución de las funciones SCReLU en las capas L₁ y L₂ con Hard-Swish provocó una disminución significativa en la eficiencia d
llama 70B corre en RTX 3090 con nuevo motor
Un equipo de desarrolladores ha creado un nuevo motor de inferencia de alto rendimiento para modelos de lenguaje grandes (LLM) que permite ejecutar el modelo Llama 70B en una sola tarjeta gráfica RTX 3090. El motor, basado en C++/CUDA, utiliza una técnica de streaming de capas del modelo a través de
