19 Mar 2026 · Original en inglés · Resumen IA

LLM más potentes: técnica de duplicación sorprende

Fuentes: Researchers boost LLM performance with simple layer duplication technique

Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas dentro del modelo. Al replicar solo 3-4 capas, se observaron mejoras significativas en capacidades como el razonamiento y la deducción lógica. Por ejemplo, en el modelo Devstral-24B, la deducción lógica mejoró de 0.22 a 0.76 en el benchmark BBH. Los investigadores identificaron que diferentes modelos tienen estos 'circuitos de razonamiento' en diferentes ubicaciones, requiriendo duplicaciones de capas específicas para cada uno. La técnica, implementada con dos GPUs AMD, no solo mejora el rendimiento en benchmarks estándar (hasta un 33% en GSM8K), sino que también permite crear modelos especializados en áreas como matemáticas o inteligencia emocional, simplemente alterando la forma en que se duplican las capas. El código y las herramientas para replicar este proceso están disponibles en GitHub, abriendo la puerta a la experimentación y optimización de LLMs sin los costosos procesos de entrenamiento tradicionales.

Temas

ia desarrollo

Etiquetas

llm transformers razonamiento artificial david ng rys method amd devstral qwen2.5 inteligencia artificial github

Entidades mencionadas

llama.cpp software

GGUF software

requests software

S&P 500 financial_instrument

Linux location

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

AMD organization

Advanced Micro Devices, Inc. (AMD) es una compañía tecnológica estadounidense de semiconductores con sede en Santa Clara, California, que desarrolla procesadores de computación y productos tecnológico

Ver en Wikipedia

RYS method creative_work

Qwen2.5-32B software

Devstral-24B software

BBH event

RX 7900 XT hardware

RX 6950 XT hardware

lm-evaluation-harness software

GSM8K event

MBPP event

EQ-Bench creative_work

Vulkan1 protocol_standard

Vulkan2 protocol_standard

tqdm software

David Ng person

David Ngodigha es un exfutbolista nigeriano que se desempeñaba como portero.

Ver en Wikipedia

Ng person

El nanogramo es una unidad de medida de masa del SIU, de símbolo ng, equivalente a la milmillonésima parte de un gramo, es decir, un nanogramo corresponde a 1/1.000.000.000 gramo, en notación científi

Ver en Wikipedia

EleutherAI organization

EleutherAI es un grupo de investigación de inteligencia artificial (IA) de base sin fines de lucro. El grupo implementó una versión de código abierto de OpenAI, y se formó en torno a un servidor de Di

Ver en Wikipedia