Descubren cómo Qwen 3.5 censorea topics sensibles sin borrar datos
Este estudio de interpretabilidad mecánica examina cómo la censura política se implementa directamente dentro de los pesos del modelo Qwen 3.5 de Alibaba. El hallazgo central es revelador: la censura no se construye eliminando los hechos del preentrenamiento, sino añadiendo un circuito aprendido que
