Heretic: herramienta elimina censura de IA automáticamente

Fuentes: New tool automates removal of censorship from language models

Un nuevo conjunto de herramientas llamado Heretic está automatizando la eliminación de restricciones de seguridad (censura) de modelos de lenguaje basados en transformadores, sin necesidad de costosos procesos de reentrenamiento. Desarrollado por P-E-W y disponible en GitHub, Heretic combina técnicas avanzadas de ablación direccional con un optimizador basado en TPE y Optuna. Esto permite que el proceso sea completamente automático, minimizando tanto las respuestas negativas a indicaciones consideradas 'dañinas' como la desviación del modelo original (KL Divergence). Los usuarios pueden utilizar Heretic sin necesidad de conocimientos técnicos profundos sobre el funcionamiento interno de los modelos de lenguaje. Las versiones de modelos decensurados generadas con Heretic, como las basadas en Gemma, han sido bien recibidas por la comunidad, mostrando una supresión de respuestas negativas comparable a la de expertos, pero con menor impacto en la capacidad general del modelo. El software soporta una variedad de modelos densos y arquitecturas MoE, aunque no todos los tipos. El proceso de decensuración puede tardar entre 45 minutos y una hora, dependiendo del tamaño del modelo y el hardware utilizado, y se puede acelerar mediante la cuantización. Además de la decensuración, Heretic ofrece herramientas para la investigación sobre la interpretación interna de los modelos, generando visualizaciones y métricas detalladas.