07 Jun 2026 · Original en inglés · Artículo

Redes neuronales con rendimiento humano mediante una catapulta de entrenamiento

Fuentes: Human-like Neural Nets by Catapulting

Imagen generada por IA con el prompt: Abstract neural network nodes forming a human brain silhouette, with a glowing catapult trajectory line crossing a stylized loss landscape, dark background with cyan and magenta gradient, futuristic editorial style — Imagen generada con IA

El ensayo «Human-like Neural Nets by Catapulting», publicado por el investigador y escritor Gwern en su blog personal, plantea una propuesta especulativa para desarrollar redes neuronales con un rendimiento comparable al del cerebro humano. La hipótesis central sostiene que las diferencias entre los modelos de lenguaje de gran tamaño (LLM) y la inteligencia biológica se deben a un equilibrio entre sesgo y varianza: mientras los LLM minimizan la varianza, los cerebros humanos minimizarían el sesgo mediante una sobreparametrización extrema al estilo del «doble descenso».

La estrategia propuesta consiste en entrenar modelos enormemente sobreparametrizados con tasas de aprendizaje muy elevadas sobre conjuntos de datos pequeños, diversos y altamente filtrados. Este método, que el autor denomina «catapultar» (catapulting), buscaría desplazar al modelo directamente hacia una región del paisaje de pérdidas con alta capacidad de generalización, en lugar de seguir el paradigma tradicional de Chinchilla, basado en escalar datos y cómputo de forma proporcional.

Según el texto, un «LLM catapultado» presentaría varias ventajas: mejor generalización que las redes actuales, inmunidad frente a ataques adversarios, mejor economía computacional, mayor resistencia a la clonación, posibilidad de arquitecturas MLP extremadamente eficientes y, sobre todo, una base sólida para la seguridad en inteligencia artificial, al ofrecer modelos alineados por las razones correctas.

El autor examina también anomalías que el paradigma actual no explica: la ineficiencia de muestras de las redes neuronales frente al aprendizaje humano, la ausencia de mejoras en las leyes de escalado con la multimodalidad, la insuficiencia del argumento del ancho de banda sensorial, las limitaciones del aprendizaje activo, la falta de beneficios derivados del embodiment y la inexistencia de una «varita mágica» arquitectónica. En cada caso, ninguna de las explicaciones convencionales resulta plenamente satisfactoria.

Para validar la hipótesis, el ensayo propone entrenar modelos de varios billones de parámetros durante pocos pasos con programaciones de tasa de aprendizaje cíclicas elevadas, y evaluarlos en tareas difíciles como aritmética o clasificación de imágenes pequeñas, prestando especial atención a los ejemplos adversarios.

Temas

Etiquetas

deep learning neural networks scaling laws llm human intelligence bias-variance tradeoff ai safety adversarial robustness gwern machine learning

Entidades mencionadas

Guardian Angels: LLM Personalization for Productivity and Security creative_work

Chinchilla creative_work

Alan Turing person

Alan Mathison Turing fue un matemático, lógico, informático teórico, criptógrafo, filósofo y biólogo teórico británico. Es considerado como uno de los padres de la ciencia de la computación y precurso

Ver en Wikipedia

Flamingo software

iGPT software

DALL·E 1 software

Gato software

LLM software

Un modelo extenso de lenguaje o LLM, también llamado modelo de lenguaje de gran tamaño o modelo de lenguaje a gran escala, es un modelo de lenguaje de aprendizaje profundo, que consta de una red neuro

Ver en Wikipedia

backpropagation protocol_standard

Gwern location

Gwernymynydd es una localidad situada en el condado de Flintshire, en Gales, con una población estimada a mediados de 2016 de 1157 habitantes.

Ver en Wikipedia

Google organization

Google es una empresa de tecnología multinacional con sede en California, conocida por sus servicios de búsqueda, publicidad en línea y, según el artículo, por sus comités de contratación que evalúan

Ver en Wikipedia

DeepMind organization

Google DeepMind es una compañía inglesa de investigación y desarrollo de inteligencia artificial adquirida el 26 de enero de 2014 por Alphabet Inc., empresa matriz de Google.

Ver en Wikipedia

arXiv organization

arXiv es un archivo en línea para las prepublicaciones de artículos científicos en el campo de las matemáticas, física, ciencias de la computación y biología cuantitativa. En muchos campos de las mate

Ver en Wikipedia

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia