29 May 2026 · Original en inglés · Resumen IA

Nuevo benchmark cuestiona si la ia realmente puede reparar vulnerabilidades de seguridad

Fuentes: I Tested Whether AI Can Fix Security Vulnerabilities. Well, It's Complicated.

El investigador Giovanni Gatti Pinheiro ha desarrollado CVE-Bench, una nueva herramienta de evaluación diseñada para medir la capacidad de los modelos de inteligencia artificial para reparar vulnerabilidades de seguridad reales. El proyecto pone a prueba sistemas como los de Poolside frente a 20 vulnerabilidades CVE reales en proyectos de Python. Ante las afirmaciones de empresas como Anthropic sobre la superioridad de sus modelos en la detección de fallos, la comunidad necesita una métrica rigurosa que evalúe no solo el hallazgo, sino la capacidad de corrección efectiva de estos códigos. CVE-Bench ejecuta agentes en contenedores aislados con tres condiciones de instrucción: 'Advisory' (el reporte estándar), 'Diagnose' (solo síntomas, sin ubicación) y 'Locate' (ubicación precisa sin descripción). El objetivo es distinguir si los modelos siguen instrucciones o razonan verdaderamente para resolver los problemas.

Temas

ia empresas seguridad

Etiquetas

intelligence artificial cve-bench poolside anthropic giovanni gatti pinheiro python docker seguridad vulnerabilidad

Entidades mencionadas

Claude Sonnet software

yt-dlp software

Pillow software

CVE protocol_standard

GitPython software

Mythos software

SWE-bench software

Laguna software

CVE-Bench software

GitHub Advisory Database organization

GHSA protocol_standard

Common Weakness Enumeration protocol_standard

CWE-22 protocol_standard

CWE-79 protocol_standard

CWE-835 protocol_standard

urllib3 software

Kubernetes organization

Kubernetes es una plataforma de código abierto para la orquestación de contenedores. Permite desplegar y automatizar la gestión de sistemas distribuidos de manera que sean capaces de escalar y auto-re

Ver en Wikipedia

CVSS 2.1 protocol_standard

Nov location

LangChain location

Langzhong, antiguamente conocido como Paoning (保寧), es un municipio bajo la administración directa de la ciudad-prefectura de Nanchong. Se ubica en la provincia de Sichuan, centro-sur de la República

Ver en Wikipedia

Apache location

Apache es el nombre con el que se conoce a un grupo de naciones indígenas culturalmente cercanas del este de Arizona, norte de los Estados de Sonora, Chihuahua, Coahuila, Nuevo León, Tamaulipas, Nuevo

Ver en Wikipedia

C++ software

C++ es un lenguaje de programación diseñado en 1979 por Bjarne Stroustrup. La intención de su creación fue extender al lenguaje de programación C y añadir mecanismos que permiten la manipulación de ob

Ver en Wikipedia

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

Rust software

Rust es un lenguaje de programación compilado, de propósito general y multiparadigma que está siendo desarrollado por Fundación Rust. Es un lenguaje de programación multiparadigmático que soporta prog

Ver en Wikipedia

Anthropic organization

Anthropic es una empresa estadounidense de investigación en IA fundada por exmiembros de OpenAI. La noticia cuestiona las afirmaciones de Anthropic sobre la capacidad de sus modelos para reparar vulne

Ver en Wikipedia

Enlaces

GitHub Advisory Database github.com

blog | poolside.ai poolside.ai

repository | github.com github.com