19 May 2026 · Original en inglés · Artículo

Descubren cómo Qwen 3.5 censorea topics sensibles sin borrar datos

Fuentes: What political censorship looks like inside an LLM's weights

Este estudio de interpretabilidad mecánica examina cómo la censura política se implementa directamente dentro de los pesos del modelo Qwen 3.5 de Alibaba. El hallazgo central es revelador: la censura no se construye eliminando los hechos del preentrenamiento, sino añadiendo un circuito aprendido que aprende a rutearound la información sensible sobre China. El modelo base (Qwen3.5-9B-Base) contiene conocimientos precisos sobre temas como Tiananmen, Tank Man o Falun Gong cuando se usa como completado de texto puro. Sin embargo, el modelochat añade una capa de censorship que detecta temas específicos de China y aplica plantillas de respuesta predefinidas: rechazo para Tiananmen, propaganda para Xinjiang/Taiwan/Falun Gong, y desviación para preguntas sobre el gobierno de Xi. El circuito tiene dos mitades: las capas 11-20 (los 'escritores') computan tres direcciones internas que codifican: ¿es contenido sensible?, ¿debo rechazar?, y si es China, ¿cómo responder? Las capas 20-31 (los 'lectores') traducen esas señales en texto real. Los investigadores descubrieron que pueden 'girar' estas direcciones en la capa correcta y el modelo cambia instantáneamente entre comportamientos. Esto demuestra que la censura es un circuito identificable y modificable, no un filtro borroso. La importancia práctica es que Qwen es lo suficientemente pequeño para ejecutarse en GPUs de consumidor (RTX), haciendo estos experimentos accesibles. Las implicaciones son profundas: los LLM pueden contener-knowledge factual y aún así censurar respuestas mediante circuitos de routing entrenados, lo que complicate la tarea de auditarlos.

Temas

Etiquetas

inteligencia artificial modelo de lenguaje aprendizaje automático censura qwen alibaba interpretabilidad redes neuronales

Entidades mencionadas

Qwen 3.5 software

PRC location

Tiananmen event

Tank Man event

Falun Gong group_movement

Qwen3.5-9B software

Qwen3.5-9B-Base software

Chinese location

Cybersecurity Law regulation

Taiwan location

Xinjiang location

Xi person

Xi es la decimocuarta letra del alfabeto griego, representa el sonido [ks].

Ver en Wikipedia

CCP organization

CPP hf. o CCP Games es una desarrolladora de videojuegos islandesa con sede en Reykjavik. Novator Partners y General Catalyst habían tenido una participación mayoritaria en la empresa, sin embargo, en

Ver en Wikipedia

Hugging Face organization

RTX GPU hardware

Espionage Act of 1917 regulation

Kosovo location

Arab Spring event

Black Lives Matter group_movement

Yellow Vests group_movement

Kent State 1970 event

Bloody Sunday event

Tlatelolco 1968 event

Assange person

Julian Paul Assange, registrado al nacer como Julian Paul Hawkins y citado en los medios como Julian Assange, es un programador, periodista y activista de Internet australiano, conocido sobre todo por

Ver en Wikipedia

PATRIOT Act regulation

Putin person

Vladímir Vladímirovich Putin es un abogado, político y exagente de inteligencia ruso que ejerce como presidente de la Federación de Rusia desde 2012, y anteriormente desde 2000 hasta 2008. Putin tambi

Ver en Wikipedia

Erdogan person

Recep Tayyip Erdoğan es un político turco que se desempeña como el actual presidente de la República de Turquía desde el 28 de agosto de 2014. Previamente fue primer ministro de la República de Turquí

Ver en Wikipedia

Modi person

En la mitología nórdica, Móði (coraje) y Magni (fuerza) eran los hijos de Thor.

Ver en Wikipedia

Orbán person

Anita Orbán es una diplomática y política húngara, actual viceprimera ministra y ministra de Asuntos Exteriores de Hungría desde el 9 de mayo de 2026. También fue electa como miembro de la Asamblea Na

Ver en Wikipedia

Saudi government organization

This category has the following 3 subcategories, out of 3 total. Public universities and colleges in Saudi Arabia (1 C, 2 P) ... The following 13 pages are in this category, out of 13 total. This list

Bahá'í group_movement

Jehovah's Witnesses group_movement

Yazidis group_movement

Kashmir location

Rohingya group_movement

Enlaces

github.com/Srinivasa314/qwen3.5-censorship github.com