LLM más potentes: técnica de duplicación sorprende

Fuentes: Researchers boost LLM performance with simple layer duplication technique

Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas dentro del modelo. Al replicar solo 3-4 capas, se observaron mejoras significativas en capacidades como el razonamiento y la deducción lógica. Por ejemplo, en el modelo Devstral-24B, la deducción lógica mejoró de 0.22 a 0.76 en el benchmark BBH. Los investigadores identificaron que diferentes modelos tienen estos 'circuitos de razonamiento' en diferentes ubicaciones, requiriendo duplicaciones de capas específicas para cada uno. La técnica, implementada con dos GPUs AMD, no solo mejora el rendimiento en benchmarks estándar (hasta un 33% en GSM8K), sino que también permite crear modelos especializados en áreas como matemáticas o inteligencia emocional, simplemente alterando la forma en que se duplican las capas. El código y las herramientas para replicar este proceso están disponibles en GitHub, abriendo la puerta a la experimentación y optimización de LLMs sin los costosos procesos de entrenamiento tradicionales.