"Context Sculpting" es una propuesta de ingeniería que plantea convertir la ventana de contexto de un modelo de lenguaje en un objeto mutable, susceptible de ser inspeccionado y reescrito por otro modelo. El concepto, bautizado así por su autor con ayuda de Claude, cuestiona la visión dominante desde ChatGPT según la cual la ventana de contexto es un registro inmutable al que solo se añaden mensajes. En su lugar, se imagina un sistema en el que un modelo más capaz (outer agent) observa el trabajo de un modelo más pequeño (inner agent) y puede intervenir entre turnos para corregir rumbos, compactar el historial o descartar secciones obsoletas. Como antecedente, el autor cita la lectura de "The Anatomy of an Agent Harness", de Viv (@Vtrivedy10), y la estrategia "advisor" publicada por Anthropic, que empareja Opus como asesor con Sonnet o Haiku como ejecutor.
Para validar la viabilidad, se construyó un prototipo de harness —el andamiaje que conecta al modelo con herramientas y contexto— sobre el framework minimalista Pi agent harness. La arquitectura es un bucle de dos capas: el inner agent ejecuta la tarea turno a turno y, tras cada turno, el outer agent examina el contexto completo y elige una de cuatro acciones: pass_through, rewrite_context, rollback o terminate. El inner agent no es informado de que está siendo "esculpido".
La prueba constó de ocho ejecuciones (cuatro con el harness completo y cuatro de referencia con solo el inner agent) sobre dos tareas: reparación de un pequeño gestor CLI con una nota heredada como distractor, y síntesis sobre un corpus local con documentos de distracción. La verificación era objetiva en ambos casos. Se usaron gpt-5.4-mini como inner agent y gpt-5.4 como outer agent, con guardrails de turnos y coste máximo. Los resultados fueron técnicamente limpios: 8 de 8 ejecuciones finalizaron, todas las verificaciones pasaron y no se activó ningún guardrail, con un coste total estimado de 0,70 dólares. Dos hallazgos, sin embargo, matizan el éxito. Primero, el harness completo costó 14 veces más que la línea base. Segundo, y más relevante, el outer agent nunca reescribió ni retrocedió el contexto: de sus 16 invocaciones, 12 fueron pass_through y 4 terminate, con cero rewrite_context y cero rollback; se comportó como un supervisor conservador que observa y, como mucho, decide interrumpir. El propio autor califica el trabajo como "vibe research" y deja abierta la pregunta de si haría falta entrenar a los modelos para esta autoedición.
