Expanse (YC P26) reduce el desperdicio de GPU en clústeres HPC

Fuentes: Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity
Imagen generada por IA con el prompt: Dim datacenter aisle with rows of GPU servers, glowing green telemetry overlays and digital metrics floating above the racks, futuristic editorial illustration, no people
Imagen generada con IA

Expanse es una herramienta respaldada por Y Combinator en su promoción P26 que aborda un problema estructural de los centros de datos: la baja utilización efectiva de la capacidad de cómputo. Sus fundadores, Ismaeel, Eren, Yafet y Nikodem, con experiencia previa en fondos cuantitativos y grandes instalaciones de HPC, explican que los centros de datos operan a entre el 30 % y el 40 % de utilización efectiva, y citan una medición de un mes en un clúster nacional de HPC con 122 000 trabajos en la que se desperdició el 59 % del cómputo. Traducido a tarifas de cloud bajo demanda para el mismo hardware, eso equivale a unos 8,5 millones de dólares en cómputo desaprovechado en un solo mes y un solo clúster.

El origen del problema, según describen, es la asimetría de riesgo al solicitar recursos: subestimar mata el trabajo y se pierden días de cálculo, mientras que sobreestimar solo es caro, por lo que los usuarios piden dos o tres veces más de lo necesario. Expanse ataca esa asimetría prediciendo con precisión cuánto cómputo consumirá realmente un trabajo antes de enviarlo.

La herramienta se instala en cada nodo y se integra con los planificadores SLURM y Kubernetes. Ingiere telemetría de hardware en tiempo real —DCGM, CUPTI, cgroups, monitorización de red y E/S— y genera un embedding personalizado del rendimiento del hardware. Cuando se envía un trabajo, Expanse analiza su código fuente, scripts de envío y metadatos del clúster, y los alimenta a modelos de aprendizaje profundo entrenados para sobreaprovisionar más que a subaprovisionar, reduciendo la probabilidad de caídas. Los modelos se ajustan por clúster y se vuelven más precisos a medida que se ejecutan más cargas.

Expanse ofrece tres capacidades: predicción de recursos en el envío (VRAM de GPU, utilización, memoria, CPU y walltime con intervalo de confianza, además de predicciones de fallos OOM y optimizaciones a nivel de línea de código); observabilidad en vivo con un dashboard de telemetría y perfilado de la pila con sobrecarga de un solo dígito porcentual; y diagnóstico de fallos con logs que explican por qué falló un trabajo y cómo arreglarlo, con sugerencias a nivel de línea de código.

En su comparativa interna, el equipo afirma que Expanse superó en 8 veces a modelos frontera como Gemini 3.5 Pro, Claude Opus 4.8, GPT 5.5 y Codex 5.3, y sostiene que el tamaño del modelo no correlaciona con la precisión: Claude Haiku rindió mejor que Opus en muchos casos. Expanse se comercializa mediante pilotos de pago, con una ventana inicial gratuita de medición de dos semanas en la que el equipo instala, ingiere datos y reporta capacidad recuperable, seguida de un despliegue por departamento con cuota mensual fija. Está dirigida a operadores de clústeres HPC o de GPU de más de 100 GPUs basados en SLURM o Kubernetes.