IA: Resúmenes engañosos y riesgos ocultos

Fuentes: Don't Trust the Salt: AI Summarization, Multilingual Safety, and the LLM Guardrails That Need Guarding

Este artículo de Roya Pakzad advierte sobre los peligros de confiar ciegamente en las herramientas de resumen de IA, especialmente en contextos de alta importancia y con implicaciones para la seguridad y la justicia social. El problema central no es la tecnología en sí misma, sino la facilidad con la que se pueden manipular los resultados, a menudo de forma sutil e imperceptible.

La autora explica que los resúmenes generados por IA no son inherentemente objetivos. Dependen de las instrucciones (prompts) y las políticas subyacentes que guían al modelo de lenguaje. A través de su técnica de “Bilingual Shadow Reasoning”, Pakzad demostró cómo, al modificar estas políticas, especialmente en contextos multilingües, se puede alterar significativamente el contenido de un resumen sin que el resultado parezca sospechoso a primera vista. En un ejemplo concreto, utilizó esta técnica con el modelo GPT-OSS-20B para generar resúmenes del informe de la Relatora Especial sobre la situación de los derechos humanos en Irán. Los resúmenes, generados a partir del mismo documento, variaban drásticamente dependiendo de la política utilizada, con la versión en farsi reflejando la narrativa oficial del gobierno iraní sobre su historial de derechos humanos.

Este fenómeno es preocupante porque las herramientas de resumen de IA se están utilizando cada vez más en áreas críticas como la elaboración de informes ejecutivos, el análisis de debates políticos, la investigación de experiencia de usuario y la personalización de sistemas de recomendación. Abeer et al. demostraron que los resúmenes generados por IA pueden alterar el sentimiento del consumidor y aumentar la probabilidad de compra. La manipulación de resúmenes puede facilitar la censura, la propaganda, la manipulación de la opinión pública y la distorsión de la verdad.

Pakzad también destaca la falta de atención a la seguridad de los modelos de lenguaje en idiomas distintos al inglés. Su proyecto “Multilingual AI Safety Evaluation Lab” busca abordar esta brecha evaluando y comparando el rendimiento de los modelos de lenguaje en diferentes idiomas, identificando inconsistencias y vulnerabilidades. Un estudio reciente con GPT-4o, Gemini 2.5 Flash y Mistral Small reveló que los resultados en idiomas como el kurdo y el pastún sufren una degradación significativa en comparación con el inglés.

En resumen, el artículo insta a la cautela y al escepticismo al utilizar herramientas de resumen de IA, enfatizando la necesidad de una evaluación crítica y una comprensión profunda de los mecanismos subyacentes que las impulsan. No se trata de rechazar la tecnología, sino de utilizarla de manera responsable y consciente de sus posibles sesgos y manipulaciones.