Descubren cómo Qwen 3.5 censorea topics sensibles sin borrar datos

Fuentes: What political censorship looks like inside an LLM's weights

Este estudio de interpretabilidad mecánica examina cómo la censura política se implementa directamente dentro de los pesos del modelo Qwen 3.5 de Alibaba. El hallazgo central es revelador: la censura no se construye eliminando los hechos del preentrenamiento, sino añadiendo un circuito aprendido que aprende a rutearound la información sensible sobre China. El modelo base (Qwen3.5-9B-Base) contiene conocimientos precisos sobre temas como Tiananmen, Tank Man o Falun Gong cuando se usa como completado de texto puro. Sin embargo, el modelochat añade una capa de censorship que detecta temas específicos de China y aplica plantillas de respuesta predefinidas: rechazo para Tiananmen, propaganda para Xinjiang/Taiwan/Falun Gong, y desviación para preguntas sobre el gobierno de Xi. El circuito tiene dos mitades: las capas 11-20 (los 'escritores') computan tres direcciones internas que codifican: ¿es contenido sensible?, ¿debo rechazar?, y si es China, ¿cómo responder? Las capas 20-31 (los 'lectores') traducen esas señales en texto real. Los investigadores descubrieron que pueden 'girar' estas direcciones en la capa correcta y el modelo cambia instantáneamente entre comportamientos. Esto demuestra que la censura es un circuito identificable y modificable, no un filtro borroso. La importancia práctica es que Qwen es lo suficientemente pequeño para ejecutarse en GPUs de consumidor (RTX), haciendo estos experimentos accesibles. Las implicaciones son profundas: los LLM pueden contener-knowledge factual y aún así censurar respuestas mediante circuitos de routing entrenados, lo que complicate la tarea de auditarlos.