25 Feb 2026 · Original en inglés · Artículo

LLMs revelan identidades ocultas en línea

Fuentes: Large-scale online deanonymization with LLMs, simonlermen.substack.com, arstechnica.com

LLMs Revelan Identidades Ocultas en Línea: Una Amenaza a la Privacidad Online

Un nuevo estudio revela que los modelos de lenguaje grandes (LLMs) están demostrando una capacidad alarmante para desanonimizar a usuarios en línea, incluso con información limitada y sin necesidad de datos estructurados. La investigación, publicada recientemente en arXiv y detallada en un artículo de Simon Lermen, plantea serias preocupaciones sobre la privacidad online y la necesidad de reevaluar los modelos de riesgo asociados con el uso de la inteligencia artificial.

La Amenaza Desvelada

El estudio, liderado por investigadores en informática, demostró que los LLMs pueden reidentificar a usuarios de plataformas como Hacker News y Anthropic Interviewer, utilizando únicamente sus perfiles pseudónimos y conversaciones en línea. Según el documento, esto se logra con una precisión considerable, superando ampliamente la capacidad de un investigador humano dedicado. El proceso, que antes requería horas de trabajo manual, ahora puede ser automatizado a gran escala. “Medimos las capacidades de los LLMs para desanonimizar usuarios en línea,” afirma el artículo de Simon Lermen, destacando la escalabilidad y eficiencia de la nueva técnica.

La metodología empleada por los investigadores implica tres pasos principales: extracción de características relevantes para la identidad, búsqueda de coincidencias utilizando incrustaciones semánticas y razonamiento sobre los candidatos más probables para verificar las coincidencias y reducir los falsos positivos. Este enfoque innovador se diferencia de los métodos anteriores, como los utilizados en el concurso Netflix Prize, que dependían de datos estructurados o ingeniería manual de características. El estudio presenta tres conjuntos de datos para evaluar los ataques basados en LLMs: la vinculación de cuentas de Hacker News a perfiles de LinkedIn, la correspondencia de usuarios en comunidades de discusión de películas en Reddit y la división de un historial de Reddit de un solo usuario en dos perfiles pseudónimos para su posterior coincidencia. En cada escenario, los métodos basados en LLMs superaron significativamente a los métodos de referencia tradicionales, logrando un recall del 68% con una precisión del 90%, en comparación con un rendimiento cercano a cero para los métodos no basados en LLMs.

Motivación y Riesgos

La investigación no surge de la nada. Los autores explican que su motivación principal es la creciente preocupación por las formas de “vigilancia impulsada por IA” que plantean riesgos concretos. Ya se sabía que los LLMs podían inferir atributos personales de los autores y utilizarlos para crear perfiles biográficos, lo que abre la puerta a abusos como el spear-phishing y otras formas de explotación monetaria. La capacidad de realizar búsquedas de personas a gran escala utilizando IA es, por sí sola, perjudicial al socavar las expectativas de privacidad de los usuarios. Además, la publicación de estos métodos, aunque arriesgada, se considera necesaria para aumentar la conciencia sobre estos riesgos y fomentar el desarrollo de soluciones de protección.

Desafíos en la Evaluación y Protección

Uno de los principales desafíos al evaluar la capacidad de desanonimización de los LLMs es la dificultad para encontrar un punto de referencia objetivo. Como no se puede desanonimizar a personas reales sin su consentimiento, los investigadores crearon “proxies” de desanonimización. Estos proxies incluyen la coincidencia de cuentas en diferentes plataformas (como Hacker News y LinkedIn) y la división artificial de una sola cuenta en dos para luego intentar vincularlas. El estudio encontró que incluso con estos proxies, los LLMs demostraron una capacidad notable para identificar y vincular cuentas.

En cuanto a la protección, el artículo sugiere que tanto los individuos como las plataformas y los laboratorios de IA deben tomar medidas. Si bien no se ofrecen soluciones específicas en el estudio, se implica que es crucial desarrollar nuevas estrategias para proteger la privacidad online en un mundo donde los LLMs pueden revelar identidades ocultas.

El Futuro de la Privacidad Online

La investigación sobre la desanonimización con LLMs tiene implicaciones significativas para el futuro de la privacidad online. La capacidad de identificar a usuarios anónimos a gran escala podría tener un impacto profundo en la forma en que las personas interactúan en línea, desde la libertad de expresión hasta la seguridad personal. Si bien la publicación de estos resultados conlleva riesgos, los investigadores argumentan que es esencial para crear conciencia sobre la amenaza y fomentar el desarrollo de soluciones de protección. El estado actual es de una creciente vulnerabilidad, y se espera que la investigación en este campo continúe, lo que podría llevar a nuevas técnicas de desanonimización y, con suerte, a contramedidas para proteger la privacidad online. La necesidad de una regulación más estricta y una mayor conciencia pública sobre los riesgos asociados con la IA es más urgente que nunca.

Temas

ia empresas regulacion

Etiquetas

reddit hacker news inteligencia artificial linkedin large language models artificial intelligence internet security online security cryptography privacidad simon lermen hacker news linkedin data privacy deanonymization llms reddit openai machine learning privacy

Entidades mencionadas

Anthropic Interviewer organization

Netflix prize event

Hugging Face organization

Hugging Face, Inc. es una empresa franco-estadounidense que desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático. Es conocida por su biblioteca de transformadores cread

Ver en Wikipedia

Reddit organization

Reddit es un sitio web de marcadores sociales y agregador de noticias donde los usuarios pueden añadir textos, imágenes, videos o enlaces. Los usuarios pueden votar a favor o en contra del contenido,

Ver en Wikipedia

Hacker News organization

El término hacker, hispanizado como jáquer o jacker, es un concepto con diferentes definiciones que se diferencian principalmente en su amplitud de significado y su enfoque. El Diccionario de la lengu

Ver en Wikipedia

LinkedIn organization

LinkedIn es una red social orientada al uso empresarial, a los negocios y al empleo. Partiendo del perfil de cada usuario, quien libremente revela su experiencia laboral además de sus destrezas, la we

Ver en Wikipedia