25 Jun 2026 · Original en inglés · Artículo

Cómo ve el espacio Pangram: la interpretabilidad de un detector de texto IA

Fuentes: Seeing in Pangram Space

Pangram Labs, empresa especializada en detección de texto generado por inteligencia artificial, ha publicado un estudio de interpretabilidad sobre su modelo insignia Pangram 3.3.2, un LLM ajustado para clasificar secuencias de texto y distinguir entre escritura humana y artificial. El trabajo, firmado por Elyas Masrour, Katherine Thai y Bradley Emi, describe los primeros análisis a nivel de documento de las representaciones internas que aprende el detector.

El equipo construyó un conjunto de datos equilibrado con 5.000 documentos, mitad humanos y mitad generados por IA, distribuidos en 20 capas pares del modelo. Las muestras de IA proceden de 25 variantes de modelos de seis familias: Claude (Anthropic), GPT (OpenAI), Gemini (Google), Qwen, Llama (Meta) y DeepSeek, extraídas de 11 dominios como noticias, artículos científicos, reseñas de productos, Wikipedia o escritura creativa en Reddit.

Para analizar los vectores de activación de 5.120 dimensiones, los investigadores aplicaron técnicas de reducción de dimensionalidad —PCA, UMAP y t-SNE— y entrenaron sondas lineales capa por capa. Los resultados muestran que la separación binaria humano/IA es detectable desde la capa 2, con una precisión de 0,83, y alcanza 1,0 en la capa 24.

El hallazgo más llamativo es que, aunque el modelo no recibe etiquetas del modelo de origen durante el entrenamiento, las activaciones forman agrupamientos por familia de LLM con una precisión top-1 del 91 % en la sonda. La aparición de esta capacidad de clasificación varía según la iteración del modelo y se consolida en capas profundas, lo que sugiere que los detectores de IA codifican información no solo sobre la autoría humana o artificial, sino también sobre el sistema concreto que produjo el texto.

Etiquetas

ai detection interpretability pangram large language models machine learning research dimensionality reduction ai text classification

Enlaces

low false positive rates web.archive.org

Model cardRead the Pangram 3.3 model cardSee the release details behind Pangram web.archive.org