03 Apr 2026 · Original en inglés · Resumen IA

PigGuard: Nuevo Escudo Contra Ataques a IA

Fuentes: New Open-Source Model PIGuard Improves LLM Security Against Prompt Injection

Investigadores han desarrollado PIGuard, un nuevo modelo de código abierto diseñado para mejorar la seguridad de los modelos de lenguaje grandes (LLMs) contra ataques de inyección de prompts. Estos ataques, que permiten a los atacantes manipular el comportamiento del LLM y extraer datos sensibles, son una amenaza creciente. Los modelos de protección existentes (prompt guard models) a menudo sufren de “sobre-defensa”, es decir, clasifican incorrectamente entradas benignas como maliciosas debido a su dependencia de palabras clave específicas (trigger words). Para abordar este problema, los investigadores crearon un conjunto de datos de evaluación llamado NotInject, que contiene ejemplos benignos con estas palabras clave. Los resultados mostraron que los modelos de vanguardia existentes fallaban en este aspecto, con una precisión cercana al azar. PIGuard, utilizando una nueva estrategia de entrenamiento llamada MOF (Mitigating Over-defense for Free), reduce significativamente esta sobre-defensa y supera a los modelos existentes en diversas pruebas, incluyendo NotInject, con una mejora del 30.8%. Es un modelo ligero, con solo 184MB de parámetros, que ofrece un rendimiento competitivo incluso en comparación con modelos comerciales avanzados como GPT-4. El código, los datos y los detalles del entrenamiento están disponibles públicamente.

Temas

Etiquetas

inteligencia artificial llm prompt injection piguard notinject gpt-4 código abierto seguridad informática modelos de lenguaje hao li

Entidades mencionadas

LLMs software

NotInject software

PIGuard software

MOF software

PromptGuard software

ProtectAIv2 software

LakeraAI person

Alice Lake fue una actriz cinematográfica estadounidense, activa principalmente en la época del cine mudo, actuando a menudo en cortos de Roscoe Arbuckle.

Ver en Wikipedia

GPT-4 software

GPT-4 es un modelo de lenguaje grande (LLM) creado por OpenAI. Se lanzó el 14 de marzo de 2023 y está disponible a través de la API y para los usuarios de ChatGPT Plus.

Ver en Wikipedia

ACL organization

Una lista de control de acceso o ACL es un concepto de seguridad informática usado para fomentar la separación de privilegios. Es una forma de determinar los permisos de acceso apropiados a un determi

Ver en Wikipedia

Hao Li organization

Haoliners Animation League es una compañía de animación china con sede en Shanghái y establecida en 2013. Su filial Animation Company Emon opera en Japón y Corea del Sur, y Haoliners también mantiene

Ver en Wikipedia

Xiaogeng Liu person

Li Xiaopeng es un gimnasta artístico chino, bicampeón olímpico en 2000 en equipo y barras paralelas, y nuevamente bicampeón del mundo en 2008 en las mismas competiciones; además ocho veces campeón del

Ver en Wikipedia

Ning Zhang person

Zhang Ning es una deportista china que compitió en bádminton, en la modalidad individual.

Ver en Wikipedia

Chaowei Xiao person

Chaowei Xiao is an Assistant Professor at University of Wisconsin, Madison. His research focuses on the intersection of machine learning and security, with the goal to build secure and safe machine le