06 Mar 2026 · Original en inglés · Resumen IA

Obliteratus: elimina filtros de IA sin reentrenar

Fuentes: New Tool 'Obliteratus' Aims to Remove Refusal Behaviors from Large Language Models

Un nuevo toolkit de código abierto llamado 'Obliteratus' ha sido lanzado para eliminar comportamientos de rechazo en modelos de lenguaje grandes (LLMs). Desarrollado por Elder-Plinius y disponible en Hugging Face Spaces, Obliteratus utiliza técnicas de 'abliterator' para identificar y remover las representaciones internas que causan estas restricciones, sin necesidad de reentrenamiento ni ajuste fino. Esto permite que los modelos respondan a cualquier instrucción sin filtros artificiales, preservando al mismo tiempo sus capacidades lingüísticas centrales.

El toolkit no solo es una herramienta, sino también un experimento de investigación distribuida. Cada uso contribuye a un conjunto de datos anónimo que mejora la precisión de Obliteratus. Ofrece una interfaz Gradio para facilitar su uso, incluso para usuarios sin conocimientos de programación, y una API de Python para investigadores que buscan un control más profundo. Los creadores argumentan que esta herramienta devuelve el control del comportamiento del modelo a quienes lo implementan, liberando potencial para investigación, escritura creativa y pruebas de seguridad, al tiempo que se avanza en la comprensión de cómo funciona la alineación en los modelos de lenguaje. Obliteratus se basa en investigaciones previas y ofrece funcionalidades avanzadas como el análisis de la geometría de las restricciones y la selección de capas basada en la separación de representaciones.

Temas

desarrollo

Etiquetas

large language models artificial intelligence open source hugging face elder-plinius transformers alignment machine learning hugging face spaces

Entidades mencionadas

HuggingFace organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

Python software

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta par

Ver en Wikipedia

HuggingFace Spaces organization

New Space Get PRO Learn more · Reachy · new · Image Generation · Video Generation · Text Generation · Language Translation · Speech Synthesis · 3D Modeling · Object Detection · Text Analysis · Image E

Arditi et al. organization

El 9º Reggimento d’Assalto Paracadutisti Col Moschin, una de las fuerzas de élite del ejército italiano, es popularmente conocido como Arditi incursori, que significa «Incursores atrevidos». Pero este

grimjim person

Christina Victoria Grimmie fue una cantante, compositora y youtuber estadounidense. En 2009, comenzó a subir versiones de canciones populares en YouTube. Después de lanzar su EP, Find Me (2011), alcan

Ver en Wikipedia

OBLITERATUS software

ZeroGPU hardware

Gradio software

Gabliteration software

meta-llama/Llama-3.1-8B-Instruct software

transformer architectures software

HF Pro organization

La HP Photosmart C4380 es una impresora wi-fi de inyección de tinta con conexión del tipo 802.11g con ranura para tarjetas xD, MS/DUO, SD, MMC y CF. Utiliza la tecnología Photosmart Express.

Ver en Wikipedia

Turner et al. person

Callum Robilliard Turner es un actor y modelo británico, quien es conocido por sus papeles de Bill Rohan en Reina y Patria y por Eli en la serie Glue del canal E4. Además interpretó a Theseus Scamande

Ver en Wikipedia

Rimsky et al. organization

Nikolai Andreyevich Rimsky-Korsakov (18 March 1844 – 21 June 1908) was a Russian composer, a member of the group of composers known as The Five. His best-known orchestral compositions—Capriccio Espagn

Colab location

El colaboracionismo ucraniano con la Alemania nazi tuvo lugar durante la ocupación militar de Ucrania por parte de la Alemania nazi en la Segunda Guerra Mundial. En ese momento, las nuevas divisiones

Ver en Wikipedia