13 Apr 2026 · Original en inglés · Resumen IA

Evalúan seguridad de IA: nace herramienta N-Day-Bench

Fuentes: New Benchmark Measures Cybersecurity Risks of Large Language Models

Investigadores de Winfunc Research han desarrollado N-Day-Bench, una nueva herramienta para evaluar la capacidad de los modelos de lenguaje grandes (LLMs) para identificar vulnerabilidades de seguridad en el mundo real, conocidas como "N-Days". Estas vulnerabilidades son reveladas después de la fecha de corte del conocimiento del modelo. La herramienta, cuyo nombre alude a la ventana de tiempo entre la divulgación de una vulnerabilidad y su parche, evalúa la capacidad de los modelos para descubrir estas fallas, proporcionando un puntaje basado en su desempeño. N-Day-Bench se actualiza mensualmente con nuevos casos de prueba y versiones de modelos, y los resultados son públicos. La última evaluación, realizada el 13 de abril de 2026, muestra que el modelo OpenAI GPT-5.4 lidera con un puntaje promedio de 83.93, seguido por z-ai/GLM-5.1 y Anthropic/Claude-Opus-4.6. El objetivo es medir específicamente la capacidad de los LLMs para la detección de vulnerabilidades, un aspecto crítico para la ciberseguridad a medida que estos modelos se integran en diversas aplicaciones.

Temas

ia empresas

Etiquetas

openai winfunc research large language models cybersecurity n-day-bench artificial intelligence vulnerability discovery gpt-5.4 z-ai

Entidades mencionadas

N-Day-Bench software

Winfunc Research organization

"Winfunc offers a great user experience for discovering and researching potential security issues." Bereket Engida · Founder, Better Auth (YC X25) What languages does winfunc support? Winfun

openai/gpt-5.4 software

z-ai/glm-5.1 software

anthropic/claude-opus-4.6 software

moonshotai/kimi-k2.5 software

google/gemini-3.1-pro-preview software

LLMs software