17 May 2026 · Original en inglés · Artículo

Nuevo método evita que la IA olvide lo aprendido antes

Fuentes: Self-Distillation Enables Continual Learning

El aprendizaje continuo representa uno de los mayores desafíos en el desarrollo de modelos de inteligencia artificial. Actualmente, los sistemas de IA pueden aprender nuevas tareas, pero suelen olvidar lo que sabían anteriormente este fenómeno se conoce como 'olvido catastrófico'. El artículo presenta Self-Distillation Fine-Tuning (SDFT), un método que permite a los modelos aprender nuevas habilidades sin perder las previamente adquiridas.

El problema principal radica en que las aproximaciones tradicionales tienen limitaciones importantes. El aprendizaje por refuerzo requiere funciones de recompensa explícitas que frecuentemente no están disponibles, mientras que el ajuste supervisado (SFT) funciona con datos recopilados previamente y no es óptimo para el aprendizaje continuo. SDFT resuelve esta limitación mediante un enfoque ingenioso: el modelo utiliza sus propias predicciones como señal de entrenamiento.

El método emplea 'in-context learning' (aprendizaje en contexto), donde el modelo condicionado por ejemplos de demostración actúa como su propio maestro. En lugar de aprender exclusivamente de expertos externos, el sistema genera sus propias señales de entrenamiento 'on-policy' (durante el proceso de decisión), lo que permite preservar capacidades previas mientras adquiere nuevas habilidades. Los experimentos muestran que SDFT supera consistentemente al ajuste supervisado tradicional, logrando mayor precisión en nuevas tareas mientras reduce significativamente el olvido catastrófico.

Las aplicaciones son diversas: desde asistentes de IA que necesitan acumular múltiples habilidades a lo largo del tiempo, hasta sistemas de recomendación que deben adaptarse a nuevas preferencias de usuarios sin degradar recomendaciones anteriores. También resulta útil en robótica, donde los robots deben aprender nuevas tareas sin perder las ya dominadas.

Entre las consideraciones importantes está que el método requiere que el modelo tenga capacidad de in-context learning, lo cual limita qué arquitecturas pueden beneficiarse. Además, aunque reduce el olvido catastrófico, no lo elimina por completo. Las alternativas incluyen técnicas como regularización de pesos o replay de experiencia, pero SDFT destaca por su simplicidad y efectividad sin necesidad de funciones de recompensa externas.

Etiquetas

machine learning continual learning deep learning neural networks model training artificial intelligence self-distillation fine-tuning

Entidades mencionadas

Machine Learning software

CORE Recommender organization

reinforcement learning software

IArxiv Recommender organization

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

Hugging Face organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

Gotit.pub organization

An open platform to discuss research · Annotate, Q&A, discuss any article with the research community - directly on the article · Or drag and drop a PDF · Examples: · article · 2302.13971v1: · LLa

Self-Distillation software

Continual Learning software

foundation models software

supervised fine-tuning software

SDFT software

in-context learning software

DagsHub organization

Dash Berlin es un grupo neerlandés de trance, progressive trance, y progressive house. En un principio estaba formado por Eelke Kalberg y Sebastiaan Molijn, y poco después se unió Jeffrey Sutorius, qu

Ver en Wikipedia

alphaXiv organization

Alphaville es un grupo musical alemán de synth pop que fue muy popular en la década de 1980. Sus canciones más populares son Forever Young, Big in Japan, Jet Set y Sounds Like a Melody, todas contenid

Ver en Wikipedia

CatalyzeX organization

Se denomina verso cataléctico a aquel métricamente incompleto, es decir, o bien le falta una sílaba, o bien, en el caso de la de la poesía griega y latina, que tiene uno de sus pies imperfecto al fina

Ver en Wikipedia

ScienceCast organization

Science Fantasy, que también apareció con los títulos Impulse y SF Impulse, fue una revista británica de fantasía y ciencia ficción lanzada en 1950 por Nova Publications como complemento de New Worlds

Ver en Wikipedia

arXivLabs organization

Absalón Gechman, más conocido como Ariel Absalón, fue un actor y director teatral con una amplia trayectoria en la escena argentina.

Ver en Wikipedia

Enlaces

What is the Explorer? info.arxiv.org

What is alphaXiv? alphaxiv.org

What is Huggingface? huggingface.co

Learn more about arXivLabs info.arxiv.org