PigGuard: Nuevo Escudo Contra Ataques a IA

Fuentes: New Open-Source Model PIGuard Improves LLM Security Against Prompt Injection

Investigadores han desarrollado PIGuard, un nuevo modelo de código abierto diseñado para mejorar la seguridad de los modelos de lenguaje grandes (LLMs) contra ataques de inyección de prompts. Estos ataques, que permiten a los atacantes manipular el comportamiento del LLM y extraer datos sensibles, son una amenaza creciente. Los modelos de protección existentes (prompt guard models) a menudo sufren de “sobre-defensa”, es decir, clasifican incorrectamente entradas benignas como maliciosas debido a su dependencia de palabras clave específicas (trigger words). Para abordar este problema, los investigadores crearon un conjunto de datos de evaluación llamado NotInject, que contiene ejemplos benignos con estas palabras clave. Los resultados mostraron que los modelos de vanguardia existentes fallaban en este aspecto, con una precisión cercana al azar. PIGuard, utilizando una nueva estrategia de entrenamiento llamada MOF (Mitigating Over-defense for Free), reduce significativamente esta sobre-defensa y supera a los modelos existentes en diversas pruebas, incluyendo NotInject, con una mejora del 30.8%. Es un modelo ligero, con solo 184MB de parámetros, que ofrece un rendimiento competitivo incluso en comparación con modelos comerciales avanzados como GPT-4. El código, los datos y los detalles del entrenamiento están disponibles públicamente.