Por qué fracasan las 'startups' independientes de evaluación de IA

Fuentes: Why eval startups fail

Las 'startups' independientes dedicadas a vender evaluaciones comparativas de modelos de inteligencia artificial afrontan obstáculos estructurales que las condenan al fracaso, salvo en el nicho de las evaluaciones de seguridad. Quien sabe diseñar y ejecutar buenas evaluaciones puede ganar más dinero e influir más en el desarrollo de modelos si trabaja en la fase de ajuste posterior al entrenamiento previo ('post-training') o en el desarrollo de aplicaciones, donde el valor capturado es muy superior: un buen ajuste puede generar cientos de millones o miles de millones de dólares, frente a un techo marcado por el mayor contrato de evaluación. Además, los clientes potenciales son escasos: los desarrolladores que usan APIs de modelos suelen ser lo bastante técnicos para ejecutar sus propias evaluaciones, y los que no lo son buscan soluciones llave en mano, no una explicación de métricas como ELO. A esto se suma la presión de optimización de los grandes laboratorios, que ajustan sus modelos para inflar los resultados en los benchmarks públicos, llegando incluso a entrenar con los datos de prueba, como Meta hizo con Llama 1 y se rumorea que repitió con Llama 4. Las 'startups' de evaluación de seguridad son la excepción, porque su talento rehúye el trabajo en capacidades por convicción y sus clientes son 'policy-makers' y reguladores que demandan auditorías externas. El texto también distingue entre vender evaluaciones y vender herramientas para elaborarlas, un modelo de tipo SaaS con márgenes distintos.