El ensayo «Human-like Neural Nets by Catapulting», publicado por el investigador y escritor Gwern en su blog personal, plantea una propuesta especulativa para desarrollar redes neuronales con un rendimiento comparable al del cerebro humano. La hipótesis central sostiene que las diferencias entre los modelos de lenguaje de gran tamaño (LLM) y la inteligencia biológica se deben a un equilibrio entre sesgo y varianza: mientras los LLM minimizan la varianza, los cerebros humanos minimizarían el sesgo mediante una sobreparametrización extrema al estilo del «doble descenso».
La estrategia propuesta consiste en entrenar modelos enormemente sobreparametrizados con tasas de aprendizaje muy elevadas sobre conjuntos de datos pequeños, diversos y altamente filtrados. Este método, que el autor denomina «catapultar» (catapulting), buscaría desplazar al modelo directamente hacia una región del paisaje de pérdidas con alta capacidad de generalización, en lugar de seguir el paradigma tradicional de Chinchilla, basado en escalar datos y cómputo de forma proporcional.
Según el texto, un «LLM catapultado» presentaría varias ventajas: mejor generalización que las redes actuales, inmunidad frente a ataques adversarios, mejor economía computacional, mayor resistencia a la clonación, posibilidad de arquitecturas MLP extremadamente eficientes y, sobre todo, una base sólida para la seguridad en inteligencia artificial, al ofrecer modelos alineados por las razones correctas.
El autor examina también anomalías que el paradigma actual no explica: la ineficiencia de muestras de las redes neuronales frente al aprendizaje humano, la ausencia de mejoras en las leyes de escalado con la multimodalidad, la insuficiencia del argumento del ancho de banda sensorial, las limitaciones del aprendizaje activo, la falta de beneficios derivados del embodiment y la inexistencia de una «varita mágica» arquitectónica. En cada caso, ninguna de las explicaciones convencionales resulta plenamente satisfactoria.
Para validar la hipótesis, el ensayo propone entrenar modelos de varios billones de parámetros durante pocos pasos con programaciones de tasa de aprendizaje cíclicas elevadas, y evaluarlos en tareas difíciles como aritmética o clasificación de imágenes pequeñas, prestando especial atención a los ejemplos adversarios.
