19 Mar 2026 · Original en inglés · Artículo

Modelos de lenguaje: ¿datos sintéticos para el futuro?

Fuentes: Training Language Modelsvia Neural Cellular Automata

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con sesgos humanos y entrelaza el conocimiento con el razonamiento, dificultando el aprendizaje puro. Una solución radical propuesta es utilizar datos sintéticos generados por sistemas dinámicos abstractos, en lugar de depender únicamente del lenguaje natural.

Esta investigación introduce los 'Autómatas Neuronales Celulares' (NCA), una generalización del famoso 'Juego de la Vida' de Conway. En lugar de reglas fijas, los NCA utilizan redes neuronales para definir las reglas de transición, generando una amplia variedad de patrones y comportamientos en una cuadrícula. Estos patrones se tokenizan (convertidos en secuencias de símbolos) y se utilizan para entrenar un modelo Transformer estándar, que debe predecir el siguiente token basándose en la secuencia observada. La clave es que cada secuencia tiene una regla latente única, obligando al modelo a inferir esa regla para poder predecir correctamente.

Los resultados son sorprendentes: los modelos entrenados con datos NCA superan a los entrenados con datos de lenguaje natural (C4) y con otros datos sintéticos (Dyck), incluso con presupuestos de tokens más bajos. Esta mejora no solo se traduce en una convergencia más rápida, sino también en una mejor precisión final. Lo más importante es que esta mejora en el rendimiento se transfiere a tareas de razonamiento reales.

Un aspecto crucial es que los datos NCA carecen de contenido lingüístico, pero aún así enseñan a los modelos a rastrear dependencias a largo plazo e inferir reglas latentes, habilidades esenciales para el lenguaje. La complejidad de los datos NCA es un factor clave: la programación se beneficia de dinámicas más simples, mientras que el texto web y las matemáticas requieren dinámicas más complejas. Los experimentos revelan que las capas de atención son las que capturan la estructura más transferible, sugiriendo que el entrenamiento NCA fomenta la formación temprana y robusta de 'inductores de contexto' (attention circuits) que son fundamentales para el aprendizaje en contexto.

Esta técnica abre una nueva vía para controlar el entrenamiento de LLM, permitiendo ajustar la estructura de los datos sintéticos para que coincida con los dominios de aplicación. La visión a largo plazo es construir modelos de base que adquieran razonamiento a partir de datos sintéticos y luego aprendan la semántica a partir de un pequeño corpus de lenguaje natural, reduciendo así la influencia de los sesgos humanos desde el principio.

Etiquetas

language models neural networks synthetic data reasoning machine learning transformers cellular automata artificial intelligence data bias deep learning

Entidades mencionadas

Transformers software

MLPs software

Conway's Game of Life creative_work

C4 software

Dyck software

NCA software

Turing-complete software

Seungwook Han person

Seungwook HAN, Research Software Engineer | Cited by 16 | of IBM Research - Thomas J. Watson Research Center, Yorktown Heights | Read 2 publications | Contact Seungwook HAN

Dan Lee person

Daniel Reed Crenshaw es un político estadounidense y ex oficial SEAL de la Marina de los Estados Unidos en la Cámara de Representantes de los Estados Unidos para el 2.º distrito congresional de Texas

Ver en Wikipedia

Akarsh Kumar person

Akarsh Kumar · Massachusetts Institute of Technology · Verified email at mit.edu - Homepage · artificial intelligencereinforcement learningmeta-learningevolutionary computationopen-endedness · Article

Pulkit Agrawal person

Pulkit Agrawal · Massachusetts Institute of Technology · Verified email at mit.edu - Homepage · RoboticsComputer VisionArtificial IntelligenceReinforcement Learning · ArticlesCited byPublic accessCo-a