TensorZero es una plataforma LLMOps de código abierto que integra en un solo sistema las funciones de puerta de enlace, observabilidad, evaluación, optimización y experimentación para modelos de lenguaje grande (LLM). Su objetivo es simplificar el flujo de trabajo de los equipos que desarrollan aplicaciones con LLM, ofreciendo una API unificada que conecta con más de veinte proveedores (OpenAI, Anthropic, Google, AWS, entre otros) y con cualquier API compatible con OpenAI. La plataforma está escrita en Rust, lo que le permite operar con una latencia adicional inferior a 1 milisegundo en el percentil 99, incluso a más de 10 000 consultas por segundo.
La puerta de enlace de TensorZero actúa como un proxy que unifica las llamadas a distintos modelos y proveedores, soportando funciones avanzadas como uso de herramientas, salidas estructuradas en JSON, procesamiento multimodal y almacenamiento en caché. La observabilidad se logra almacenando todas las inferencias y la retroalimentación en la base de datos del usuario, accesible mediante la interfaz web o mediante APIs. Para evaluación, TensorZero permite comparar inferencias individuales o flujos completos usando heurísticas o evaluadores basados en LLM. La optimización se apoya en datos de producción y retroalimentación humana para ajustar prompts, modelos y estrategias de inferencia mediante técnicas como ajuste fino supervisado, aprendizaje por refuerzo o algoritmos automatizados de ingeniería de prompts. La experimentación incluye pruebas A/B, enrutamiento, reintentos y degradación controlada para lanzar cambios con confianza.
TensorZero puede adoptarse de forma incremental, complementando otras herramientas. Es utilizado por empresas que van desde startups de IA hasta corporaciones del Fortune 10 y maneja aproximadamente el 1 % del gasto global en APIs de LLM. También se menciona TensorZero Autopilot, un ingeniero automatizado que analiza datos de observabilidad, configura evaluaciones y ejecuta optimizaciones.
Al ser código abierto, los usuarios mantienen el control de sus datos. La integración con el SDK de OpenAI y OpenTelemetry facilita la adopción. Las limitaciones incluyen la necesidad de gestionar la propia infraestructura (un contenedor Docker) y la dependencia de los proveedores externos. No hay información sobre precios, ya que el uso del gateway es gratuito, pero los costos de los modelos corren por cuenta del usuario.
