Este estudio de interpretabilidad mecánica examina cómo la censura política se implementa directamente dentro de los pesos del modelo Qwen 3.5 de Alibaba. El hallazgo central es revelador: la censura no se construye eliminando los hechos del preentrenamiento, sino añadiendo un circuito aprendido que aprende a rutearound la información sensible sobre China. El modelo base (Qwen3.5-9B-Base) contiene conocimientos precisos sobre temas como Tiananmen, Tank Man o Falun Gong cuando se usa como completado de texto puro. Sin embargo, el modelochat añade una capa de censorship que detecta temas específicos de China y aplica plantillas de respuesta predefinidas: rechazo para Tiananmen, propaganda para Xinjiang/Taiwan/Falun Gong, y desviación para preguntas sobre el gobierno de Xi. El circuito tiene dos mitades: las capas 11-20 (los 'escritores') computan tres direcciones internas que codifican: ¿es contenido sensible?, ¿debo rechazar?, y si es China, ¿cómo responder? Las capas 20-31 (los 'lectores') traducen esas señales en texto real. Los investigadores descubrieron que pueden 'girar' estas direcciones en la capa correcta y el modelo cambia instantáneamente entre comportamientos. Esto demuestra que la censura es un circuito identificable y modificable, no un filtro borroso. La importancia práctica es que Qwen es lo suficientemente pequeño para ejecutarse en GPUs de consumidor (RTX), haciendo estos experimentos accesibles. Las implicaciones son profundas: los LLM pueden contener-knowledge factual y aún así censurar respuestas mediante circuitos de routing entrenados, lo que complicate la tarea de auditarlos.
