01 Jun 2026 · Original en inglés · Artículo

Expanse (YC P26) reduce el desperdicio de GPU en clústeres HPC

Fuentes: Launch HN: Expanse (YC P26) – Unlock Wasted GPU Capacity

Imagen generada por IA con el prompt: Dim datacenter aisle with rows of GPU servers, glowing green telemetry overlays and digital metrics floating above the racks, futuristic editorial illustration, no people — Imagen generada con IA

Expanse es una herramienta respaldada por Y Combinator en su promoción P26 que aborda un problema estructural de los centros de datos: la baja utilización efectiva de la capacidad de cómputo. Sus fundadores, Ismaeel, Eren, Yafet y Nikodem, con experiencia previa en fondos cuantitativos y grandes instalaciones de HPC, explican que los centros de datos operan a entre el 30 % y el 40 % de utilización efectiva, y citan una medición de un mes en un clúster nacional de HPC con 122 000 trabajos en la que se desperdició el 59 % del cómputo. Traducido a tarifas de cloud bajo demanda para el mismo hardware, eso equivale a unos 8,5 millones de dólares en cómputo desaprovechado en un solo mes y un solo clúster.

El origen del problema, según describen, es la asimetría de riesgo al solicitar recursos: subestimar mata el trabajo y se pierden días de cálculo, mientras que sobreestimar solo es caro, por lo que los usuarios piden dos o tres veces más de lo necesario. Expanse ataca esa asimetría prediciendo con precisión cuánto cómputo consumirá realmente un trabajo antes de enviarlo.

La herramienta se instala en cada nodo y se integra con los planificadores SLURM y Kubernetes. Ingiere telemetría de hardware en tiempo real —DCGM, CUPTI, cgroups, monitorización de red y E/S— y genera un embedding personalizado del rendimiento del hardware. Cuando se envía un trabajo, Expanse analiza su código fuente, scripts de envío y metadatos del clúster, y los alimenta a modelos de aprendizaje profundo entrenados para sobreaprovisionar más que a subaprovisionar, reduciendo la probabilidad de caídas. Los modelos se ajustan por clúster y se vuelven más precisos a medida que se ejecutan más cargas.

Expanse ofrece tres capacidades: predicción de recursos en el envío (VRAM de GPU, utilización, memoria, CPU y walltime con intervalo de confianza, además de predicciones de fallos OOM y optimizaciones a nivel de línea de código); observabilidad en vivo con un dashboard de telemetría y perfilado de la pila con sobrecarga de un solo dígito porcentual; y diagnóstico de fallos con logs que explican por qué falló un trabajo y cómo arreglarlo, con sugerencias a nivel de línea de código.

En su comparativa interna, el equipo afirma que Expanse superó en 8 veces a modelos frontera como Gemini 3.5 Pro, Claude Opus 4.8, GPT 5.5 y Codex 5.3, y sostiene que el tamaño del modelo no correlaciona con la precisión: Claude Haiku rindió mejor que Opus en muchos casos. Expanse se comercializa mediante pilotos de pago, con una ventana inicial gratuita de medición de dos semanas en la que el equipo instala, ingiere datos y reporta capacidad recuperable, seguida de un despliegue por departamento con cuota mensual fija. Está dirigida a operadores de clústeres HPC o de GPU de más de 100 GPUs basados en SLURM o Kubernetes.

Etiquetas

expanse y combinator hpc gpu computing slurm kubernetes datacenter deep learning resource prediction launch hn

Entidades mencionadas

Slurm software

Codex 5.3 software

Gemini 3.5 Pro software

DCGM software

GPT 5.5 software

Claude Opus 4.8 software

Expanse organization

The Expanse es una serie de televisión estadounidense de ciencia ficción que se estrenó el 14 de diciembre de 2015 en el canal de televisión Syfy. La serie fue desarrollada por Mark Fergus y Hawk Ostb

Ver en Wikipedia

EPCC location

La Estación Polar Científica Conjunta Glaciar Unión o Base Glaciar Unión es una base antártica de verano de Chile ubicada en el glaciar Unión en los montes Ellsworth. Es operada por el INACH y las tre

Ver en Wikipedia

Adrian Jackson person

Adrian Jackson (theatre director), founder-director of the theatre company, Cardboard Citizens in the UK · Adrian Jackson (orienteer), Australian mountain bike orienteering competitor and World Champi

Ismaeel person

Ismaeel Mohammad es un futbolista catarí. Juega de centrocampista y su equipo actual es el Al-Duhail de la Liga de fútbol de Catar. Es internacional absoluto por la selección de la Catar desde 2013.

Ver en Wikipedia

Kubernetes software

Kubernetes es una plataforma de código abierto para la orquestación de contenedores. Permite desplegar y automatizar la gestión de sistemas distribuidos de manera que sean capaces de escalar y auto-re

Ver en Wikipedia

Y Combinator organization

Y Combinator (YC) es una aceleradora de startups estadounidense, fundada en marzo del 2005. Ha sido usada para lanzar más de 2 mil compañías, incluyendo Stripe, Airbnb, Reddit, Cruise Automation, Door

Ver en Wikipedia