El investigador Giovanni Gatti Pinheiro ha desarrollado CVE-Bench, una nueva herramienta de evaluación diseñada para medir la capacidad de los modelos de inteligencia artificial para reparar vulnerabilidades de seguridad reales. El proyecto pone a prueba sistemas como los de Poolside frente a 20 vulnerabilidades CVE reales en proyectos de Python. Ante las afirmaciones de empresas como Anthropic sobre la superioridad de sus modelos en la detección de fallos, la comunidad necesita una métrica rigurosa que evalúe no solo el hallazgo, sino la capacidad de corrección efectiva de estos códigos. CVE-Bench ejecuta agentes en contenedores aislados con tres condiciones de instrucción: 'Advisory' (el reporte estándar), 'Diagnose' (solo síntomas, sin ubicación) y 'Locate' (ubicación precisa sin descripción). El objetivo es distinguir si los modelos siguen instrucciones o razonan verdaderamente para resolver los problemas.
Nuevo benchmark cuestiona si la ia realmente puede reparar vulnerabilidades de seguridad
