24 Jun 2026 · Original en inglés · Artículo

Por qué fracasan las 'startups' independientes de evaluación de IA

Fuentes: Why eval startups fail

Las 'startups' independientes dedicadas a vender evaluaciones comparativas de modelos de inteligencia artificial afrontan obstáculos estructurales que las condenan al fracaso, salvo en el nicho de las evaluaciones de seguridad. Quien sabe diseñar y ejecutar buenas evaluaciones puede ganar más dinero e influir más en el desarrollo de modelos si trabaja en la fase de ajuste posterior al entrenamiento previo ('post-training') o en el desarrollo de aplicaciones, donde el valor capturado es muy superior: un buen ajuste puede generar cientos de millones o miles de millones de dólares, frente a un techo marcado por el mayor contrato de evaluación. Además, los clientes potenciales son escasos: los desarrolladores que usan APIs de modelos suelen ser lo bastante técnicos para ejecutar sus propias evaluaciones, y los que no lo son buscan soluciones llave en mano, no una explicación de métricas como ELO. A esto se suma la presión de optimización de los grandes laboratorios, que ajustan sus modelos para inflar los resultados en los benchmarks públicos, llegando incluso a entrenar con los datos de prueba, como Meta hizo con Llama 1 y se rumorea que repitió con Llama 4. Las 'startups' de evaluación de seguridad son la excepción, porque su talento rehúye el trabajo en capacidades por convicción y sus clientes son 'policy-makers' y reguladores que demandan auditorías externas. El texto también distingue entre vender evaluaciones y vender herramientas para elaborarlas, un modelo de tipo SaaS con márgenes distintos.

Temas

finanzas y mercados ia

Etiquetas

ai evaluation startups venture capital goodhart's law llm benchmarks ai safety post-training lmsys chatbot arena

Entidades mencionadas

Llama 4 software

GPT-4.5 software

Llama 4 Maverick software

cohere organization

Coherence es una película estadounidense de ciencia ficción de 2013, que supuso el debut de James Ward Byrkit como director. Fue estrenada a nivel internacional el 19 de diciembre en el Festival de Ci

Ver en Wikipedia

Chatbot Arena software

Meta organization

Metallica es una banda estadounidense de heavy metal fundada en 1981 en Los Ángeles, aunque ha estado radicada en San Francisco durante la mayor parte de su carrera. Está integrada por el vocalista y

Ver en Wikipedia

Epoch AI organization

Epoch Game Pocket Computer es la segunda consola de videojuegos portátil del mundo con cartuchos reemplazables lanzada por Epoch exclusivamente para el mercado japonés en 1984.

Ver en Wikipedia

Llama 1 software

Gartner organization

Wolfgang Gartner es un DJ y productor estadounidense de electro house nominado a los Grammy. Gran parte de su música fue puesta a la venta desde su propia discográfica Kindergarten, pero en 2010 firmó

Ver en Wikipedia

AIME 2024 protocol_standard

LM Arena location

La Arena es uno de los barrios del Distrito Este del concejo de Gijón, España. El nombre del barrio se debe a que el lugar donde se encuentra situado era, en épocas pasadas, una zona de arenales de la

Ver en Wikipedia

Enlaces

Susan Zhang tweet about Llama 1 training data x.com

Serious issues in Llama 4 training. I Have Submitted My Resignation to GenAI www.reddit.com

LM Arena seed round announcement x.com