Las ventanas de contexto de los modelos de lenguaje grandes no son lo que parecen. Un vídeo reciente distingue dos zonas dentro de esa ventana: una "zona inteligente", donde el modelo responde con precisión, y una "zona tonta", donde la atención cae y el modelo empieza a olvidar lo que se le dijo minutos antes. El corte se sitúa en torno a los 100.000 tokens, con independencia del tamaño anunciado.
Esto importa porque los agentes de programación consumen tokens a gran velocidad: lecturas de ficheros, sesiones largas de depuración y baterías de pruebas llevan al usuario a esa franja crítica antes de lo previsto. Los fabricantes siguen publicitando ventanas de 200.000, un millón o dos millones de tokens, como si esas cifras representasen un espacio de trabajo realmente utilizable. Estudios como RULER y el informe de Chroma sobre context rot demuestran que el contexto efectivo es una fracción del anunciado y que el rendimiento se degrada de forma gradual conforme se llena la ventana.
La auto-compactación de herramientas como Claude Code mitiga el problema, pero solo después de haber pasado por la zona degradada. Una alternativa más sólida consiste en abrir sesiones nuevas y entregar un escrito propio, una especificación, que el siguiente agente pueda leer sin ruido. Iniciativas como obra/superpowers o mattpocock/skills estructuran el flujo de trabajo de los agentes en torno a artefactos pequeños y con nombre. Tratar la ventana de contexto como un presupuesto y mover la información a artefactos escritos es, a la postre, la forma de mantenerse en la zona donde el modelo realmente rinde.
