Investigadores de Winfunc Research han desarrollado N-Day-Bench, una nueva herramienta para evaluar la capacidad de los modelos de lenguaje grandes (LLMs) para identificar vulnerabilidades de seguridad en el mundo real, conocidas como "N-Days". Estas vulnerabilidades son reveladas después de la fecha de corte del conocimiento del modelo. La herramienta, cuyo nombre alude a la ventana de tiempo entre la divulgación de una vulnerabilidad y su parche, evalúa la capacidad de los modelos para descubrir estas fallas, proporcionando un puntaje basado en su desempeño. N-Day-Bench se actualiza mensualmente con nuevos casos de prueba y versiones de modelos, y los resultados son públicos. La última evaluación, realizada el 13 de abril de 2026, muestra que el modelo OpenAI GPT-5.4 lidera con un puntaje promedio de 83.93, seguido por z-ai/GLM-5.1 y Anthropic/Claude-Opus-4.6. El objetivo es medir específicamente la capacidad de los LLMs para la detección de vulnerabilidades, un aspecto crítico para la ciberseguridad a medida que estos modelos se integran en diversas aplicaciones.
