Modelos de lenguaje: ¿datos sintéticos para el futuro?

Fuentes: Training Language Modelsvia Neural Cellular Automata

El entrenamiento de modelos de lenguaje (LLM) está enfrentando un problema creciente: la necesidad de cantidades exponencialmente mayores de datos para seguir mejorando. La disponibilidad de texto natural de alta calidad se proyecta que se agotará en 2028, y el texto de internet está contaminado con sesgos humanos y entrelaza el conocimiento con el razonamiento, dificultando el aprendizaje puro. Una solución radical propuesta es utilizar datos sintéticos generados por sistemas dinámicos abstractos, en lugar de depender únicamente del lenguaje natural.

Esta investigación introduce los 'Autómatas Neuronales Celulares' (NCA), una generalización del famoso 'Juego de la Vida' de Conway. En lugar de reglas fijas, los NCA utilizan redes neuronales para definir las reglas de transición, generando una amplia variedad de patrones y comportamientos en una cuadrícula. Estos patrones se tokenizan (convertidos en secuencias de símbolos) y se utilizan para entrenar un modelo Transformer estándar, que debe predecir el siguiente token basándose en la secuencia observada. La clave es que cada secuencia tiene una regla latente única, obligando al modelo a inferir esa regla para poder predecir correctamente.

Los resultados son sorprendentes: los modelos entrenados con datos NCA superan a los entrenados con datos de lenguaje natural (C4) y con otros datos sintéticos (Dyck), incluso con presupuestos de tokens más bajos. Esta mejora no solo se traduce en una convergencia más rápida, sino también en una mejor precisión final. Lo más importante es que esta mejora en el rendimiento se transfiere a tareas de razonamiento reales.

Un aspecto crucial es que los datos NCA carecen de contenido lingüístico, pero aún así enseñan a los modelos a rastrear dependencias a largo plazo e inferir reglas latentes, habilidades esenciales para el lenguaje. La complejidad de los datos NCA es un factor clave: la programación se beneficia de dinámicas más simples, mientras que el texto web y las matemáticas requieren dinámicas más complejas. Los experimentos revelan que las capas de atención son las que capturan la estructura más transferible, sugiriendo que el entrenamiento NCA fomenta la formación temprana y robusta de 'inductores de contexto' (attention circuits) que son fundamentales para el aprendizaje en contexto.

Esta técnica abre una nueva vía para controlar el entrenamiento de LLM, permitiendo ajustar la estructura de los datos sintéticos para que coincida con los dominios de aplicación. La visión a largo plazo es construir modelos de base que adquieran razonamiento a partir de datos sintéticos y luego aprendan la semántica a partir de un pequeño corpus de lenguaje natural, reduciendo así la influencia de los sesgos humanos desde el principio.