Un nuevo toolkit de código abierto llamado 'Obliteratus' ha sido lanzado para eliminar comportamientos de rechazo en modelos de lenguaje grandes (LLMs). Desarrollado por Elder-Plinius y disponible en Hugging Face Spaces, Obliteratus utiliza técnicas de 'abliterator' para identificar y remover las representaciones internas que causan estas restricciones, sin necesidad de reentrenamiento ni ajuste fino. Esto permite que los modelos respondan a cualquier instrucción sin filtros artificiales, preservando al mismo tiempo sus capacidades lingüísticas centrales.
El toolkit no solo es una herramienta, sino también un experimento de investigación distribuida. Cada uso contribuye a un conjunto de datos anónimo que mejora la precisión de Obliteratus. Ofrece una interfaz Gradio para facilitar su uso, incluso para usuarios sin conocimientos de programación, y una API de Python para investigadores que buscan un control más profundo. Los creadores argumentan que esta herramienta devuelve el control del comportamiento del modelo a quienes lo implementan, liberando potencial para investigación, escritura creativa y pruebas de seguridad, al tiempo que se avanza en la comprensión de cómo funciona la alineación en los modelos de lenguaje. Obliteratus se basa en investigaciones previas y ofrece funcionalidades avanzadas como el análisis de la geometría de las restricciones y la selección de capas basada en la separación de representaciones.
