Pangram Labs, empresa especializada en detección de texto generado por inteligencia artificial, ha publicado un estudio de interpretabilidad sobre su modelo insignia Pangram 3.3.2, un LLM ajustado para clasificar secuencias de texto y distinguir entre escritura humana y artificial. El trabajo, firmado por Elyas Masrour, Katherine Thai y Bradley Emi, describe los primeros análisis a nivel de documento de las representaciones internas que aprende el detector.
El equipo construyó un conjunto de datos equilibrado con 5.000 documentos, mitad humanos y mitad generados por IA, distribuidos en 20 capas pares del modelo. Las muestras de IA proceden de 25 variantes de modelos de seis familias: Claude (Anthropic), GPT (OpenAI), Gemini (Google), Qwen, Llama (Meta) y DeepSeek, extraídas de 11 dominios como noticias, artículos científicos, reseñas de productos, Wikipedia o escritura creativa en Reddit.
Para analizar los vectores de activación de 5.120 dimensiones, los investigadores aplicaron técnicas de reducción de dimensionalidad —PCA, UMAP y t-SNE— y entrenaron sondas lineales capa por capa. Los resultados muestran que la separación binaria humano/IA es detectable desde la capa 2, con una precisión de 0,83, y alcanza 1,0 en la capa 24.
El hallazgo más llamativo es que, aunque el modelo no recibe etiquetas del modelo de origen durante el entrenamiento, las activaciones forman agrupamientos por familia de LLM con una precisión top-1 del 91 % en la sonda. La aparición de esta capacidad de clasificación varía según la iteración del modelo y se consolida en capas profundas, lo que sugiere que los detectores de IA codifican información no solo sobre la autoría humana o artificial, sino también sobre el sistema concreto que produjo el texto.
