07 Jun 2026 · Original en inglés · Artículo

Ingeniería de arneses: el experimento de OpenAI con Codex como único programador

Fuentes: Harness engineering: building a million-line codebase with Codex agents

Imagen generada por IA con el prompt: Minimalist editorial illustration: a single glowing monitor on a clean desk showing code and a chat interface, abstract translucent AI agent icons orbiting the screen, soft blue and white light, no people, calm futuristi — Imagen generada con IA

Ryan Lopopolo, miembro del equipo técnico de OpenAI, ha detallado en un artículo la metodología bautizada como "ingeniería de arneses" (harness engineering), con la que un equipo humano de entre tres y siete personas ha construido en cinco meses alrededor de un millón de líneas de código escritas íntegramente por Codex, el agente de programación de la compañía. El proyecto, iniciado a finales de agosto de 2025, tiene usuarios internos diarios y probadores alfa externos, y ha sumado unas 1.500 solicitudes de integración (pull requests) fusionadas, con un ritmo medio de 3,5 PR por ingeniero y día.

El principio rector del experimento fue una restricción deliberada: ninguna línea de código podía escribirse a mano. Esa decisión obligó al equipo a repensar su función: en lugar de programar, los ingenieros pasan a diseñar entornos, especificar la intención y construir bucles de retroalimentación que permitan a los agentes trabajar con fiabilidad. "Los humanos dirigen; los agentes ejecutan", resume Lopopolo.

La principal conclusión es que, al principio, el avance fue más lento de lo esperado no por la incapacidad del modelo, sino porque el entorno estaba insuficientemente especificado. Los ingenieros trabajaron en profundidad, dividiendo objetivos en bloques pequeños y ampliando las capacidades del agente. Cuando algo fallaba, rara vez la solución era "intentar de nuevo": el equipo preguntaba qué capacidad faltaba y cómo hacerla comprensible y exigible para el agente.

La interacción humana con el sistema se realiza casi exclusivamente mediante prompts. Para cerrar una PR, Codex revisa sus propios cambios en local, solicita revisiones a otros agentes —tanto locales como en la nube— e itera hasta que todos los revisores quedan satisfechos, en un bucle que el equipo denomina "Ralph Wiggum Loop". La revisión humana es opcional y se ha ido desplazando hacia un modelo agente a agente.

El artículo detalla varias decisiones técnicas clave. Para resolver el cuello de botella de las pruebas de calidad, el equipo hizo que la aplicación pudiera arrancarse por worktree de Git, lo que permite a Codex lanzar una instancia por cambio, e integró el Chrome DevTools Protocol para que el agente reproduzca errores y valide la interfaz con instantáneas de DOM y capturas. También expuso registros, métricas y trazas mediante LogQL y PromQL en una pila efímera por worktree, de modo que instrucciones como "garantiza que el arranque del servicio tarde menos de 800 ms" sean ejecutables. El equipo afirma observar con frecuencia ejecuciones individuales de Codex que se extienden más de seis horas.

Otro bloque importante aborda la gestión de contexto. El equipo probó un único y monolítico AGENTS.md, pero el resultado fue un archivo inflado que se desactualizaba. La solución fue tratar el AGENTS.md como un índice de unas cien líneas y mover el conocimiento detallado a un directorio docs/ estructurado, con documentación de diseño, arquitectura, calidad y planes de ejecución tratados como artefactos de primera clase.

Lopopolo estima que el producto se construyó en aproximadamente una décima parte del tiempo que habría requerido la escritura manual del código.

Temas

ia empresas

Etiquetas

openai codex gpt-5 harness engineering agentic coding ai agents software engineering ryan lopopolo

Entidades mencionadas

GPT-5 software

GPT-5 es un modelo de lenguaje de gran tamaño desarrollado y alojado por OpenAI. Es su modelo GPT insignia y con capacidades de agente, y fue lanzado el 7 de agosto de 2025. GPT-5 es accesible a travé

Ver en Wikipedia

Codex CLI software

Ryan Lopopolo person

Ryan Lopopolo is a software engineer at OpenAI focused on new ways of building software with agents. He writes and speaks about Harness Engineering: the systems, constraints, and feedback loops that m

Ralph Wiggum Loop protocol_standard

Chrome DevTools Protocol protocol_standard

LogQL protocol_standard

PromQL protocol_standard

AGENTS.md protocol_standard

Codex software

El término códice se usa para denominar a uno de los formatos del libro. Se compone de cuadernos plegados, cosidos y encuadernados. Habitualmente se puede escribir en ambos lados de cada hoja, denomin

OpenAI organization

OpenAI, LLC es una empresa estadounidense de investigación y despliegue de inteligencia artificial fundada en 2015 e, inicialmente, sin ánimo de lucro. Su misión original era asegurar que la inteligen

Ver en Wikipedia

git software

Git es un sistema de control de versiones distribuido que permite a los desarrolladores rastrear cambios en el código fuente. La noticia describe cómo configurar un 'remote local' en Git para mejorar

Ver en Wikipedia

Enlaces

Ralph Wiggum Loop ghuntley.com

AGENTS.md agents.md

execution plans cookbook.openai.com

parse data shapes at the boundary lexi-lambda.github.io

strict boundaries and predictable structure bits.logic.inc