Ingeniería de arneses: el experimento de OpenAI con Codex como único programador

Fuentes: Harness engineering: building a million-line codebase with Codex agents
Imagen generada por IA con el prompt: Minimalist editorial illustration: a single glowing monitor on a clean desk showing code and a chat interface, abstract translucent AI agent icons orbiting the screen, soft blue and white light, no people, calm futuristi
Imagen generada con IA

Ryan Lopopolo, miembro del equipo técnico de OpenAI, ha detallado en un artículo la metodología bautizada como "ingeniería de arneses" (harness engineering), con la que un equipo humano de entre tres y siete personas ha construido en cinco meses alrededor de un millón de líneas de código escritas íntegramente por Codex, el agente de programación de la compañía. El proyecto, iniciado a finales de agosto de 2025, tiene usuarios internos diarios y probadores alfa externos, y ha sumado unas 1.500 solicitudes de integración (pull requests) fusionadas, con un ritmo medio de 3,5 PR por ingeniero y día.

El principio rector del experimento fue una restricción deliberada: ninguna línea de código podía escribirse a mano. Esa decisión obligó al equipo a repensar su función: en lugar de programar, los ingenieros pasan a diseñar entornos, especificar la intención y construir bucles de retroalimentación que permitan a los agentes trabajar con fiabilidad. "Los humanos dirigen; los agentes ejecutan", resume Lopopolo.

La principal conclusión es que, al principio, el avance fue más lento de lo esperado no por la incapacidad del modelo, sino porque el entorno estaba insuficientemente especificado. Los ingenieros trabajaron en profundidad, dividiendo objetivos en bloques pequeños y ampliando las capacidades del agente. Cuando algo fallaba, rara vez la solución era "intentar de nuevo": el equipo preguntaba qué capacidad faltaba y cómo hacerla comprensible y exigible para el agente.

La interacción humana con el sistema se realiza casi exclusivamente mediante prompts. Para cerrar una PR, Codex revisa sus propios cambios en local, solicita revisiones a otros agentes —tanto locales como en la nube— e itera hasta que todos los revisores quedan satisfechos, en un bucle que el equipo denomina "Ralph Wiggum Loop". La revisión humana es opcional y se ha ido desplazando hacia un modelo agente a agente.

El artículo detalla varias decisiones técnicas clave. Para resolver el cuello de botella de las pruebas de calidad, el equipo hizo que la aplicación pudiera arrancarse por worktree de Git, lo que permite a Codex lanzar una instancia por cambio, e integró el Chrome DevTools Protocol para que el agente reproduzca errores y valide la interfaz con instantáneas de DOM y capturas. También expuso registros, métricas y trazas mediante LogQL y PromQL en una pila efímera por worktree, de modo que instrucciones como "garantiza que el arranque del servicio tarde menos de 800 ms" sean ejecutables. El equipo afirma observar con frecuencia ejecuciones individuales de Codex que se extienden más de seis horas.

Otro bloque importante aborda la gestión de contexto. El equipo probó un único y monolítico AGENTS.md, pero el resultado fue un archivo inflado que se desactualizaba. La solución fue tratar el AGENTS.md como un índice de unas cien líneas y mover el conocimiento detallado a un directorio docs/ estructurado, con documentación de diseño, arquitectura, calidad y planes de ejecución tratados como artefactos de primera clase.

Lopopolo estima que el producto se construyó en aproximadamente una décima parte del tiempo que habría requerido la escritura manual del código.