Hex ha desarrollado una infraestructura propia, llamada The Shoebox, para entrenar y comparar agentes de datos en un entorno controlado. La plataforma funciona como un banco de pruebas dentro del entorno de desarrollo local de Hex, pero se conecta a un espacio de trabajo interno compartido donde se ejecutan líneas base de producción a diario. Esto permite que cualquier persona del equipo lance una nueva rama de código y compare su versión candidata contra una base estable y común. Las evaluaciones se diseñan como experimentos pareados —candidato frente a línea base— y admiten rúbricas deterministas, juzgadas por modelos de lenguaje o híbridas, además de rúbricas temporales centradas en hipótesis concretas como eficiencia de herramientas, uso de capas semánticas o adherencia a guías.
Para alimentar ese banco de pruebas, Hex creó Shorelane Commerce, una empresa ficticia B2B2C de artículos de oficina fundada en 2019 con unos 129 millones de dólares de facturación anual. Shorelane vende desde papel hasta suscripciones empresariales con pago a 30 días, opera con Stripe, Salesforce, un Shopify heredado y tres plataformas publicitarias con métricas de conversión dispares, y arrastra una deuda de datos deliberada: identificadores de cliente perdidos tras una migración, una adquisición nunca integrada, canales renombrados sin respaldo y planes reestructurados que conviven en paralelo. Hasta cinco columnas podrían llamarse «ingresos» y cada área usa una distinta. El espacio de Hex añade guías y modelos semánticos para que la evaluación mida la capacidad del agente de aprovechar ese contexto, no solo de acertar la respuesta final.
