Obliteratus: elimina filtros de IA sin reentrenar

Fuentes: New Tool 'Obliteratus' Aims to Remove Refusal Behaviors from Large Language Models

Un nuevo toolkit de código abierto llamado 'Obliteratus' ha sido lanzado para eliminar comportamientos de rechazo en modelos de lenguaje grandes (LLMs). Desarrollado por Elder-Plinius y disponible en Hugging Face Spaces, Obliteratus utiliza técnicas de 'abliterator' para identificar y remover las representaciones internas que causan estas restricciones, sin necesidad de reentrenamiento ni ajuste fino. Esto permite que los modelos respondan a cualquier instrucción sin filtros artificiales, preservando al mismo tiempo sus capacidades lingüísticas centrales.

El toolkit no solo es una herramienta, sino también un experimento de investigación distribuida. Cada uso contribuye a un conjunto de datos anónimo que mejora la precisión de Obliteratus. Ofrece una interfaz Gradio para facilitar su uso, incluso para usuarios sin conocimientos de programación, y una API de Python para investigadores que buscan un control más profundo. Los creadores argumentan que esta herramienta devuelve el control del comportamiento del modelo a quienes lo implementan, liberando potencial para investigación, escritura creativa y pruebas de seguridad, al tiempo que se avanza en la comprensión de cómo funciona la alineación en los modelos de lenguaje. Obliteratus se basa en investigaciones previas y ofrece funcionalidades avanzadas como el análisis de la geometría de las restricciones y la selección de capas basada en la separación de representaciones.