Desarrollador publica dataset de afiliaciones de 5.356 artículos de ICLR 2026

Fuentes: GitHub - DmytroLopushanskyy/iclr2026-affiliations: PDF-derived institutional affiliations for 5,356 ICLR 2026 accepted papers — full pipeline (scrape → parse → render), clean dataset (CSV + XLSX), and treemap charts.
Desarrollador publica dataset de afiliaciones de 5.356 artículos de ICLR 2026
Imagen generada con IA

Un desarrollador ha publicado un pipeline que procesa 5.356 artículos aceptados en ICLR 2026 para crear un dataset de afiliaciones institucionales derivadas directamente de los PDFs,解决iendo el problema de 'deriva de perfil' de OpenReview donde la afiliación actual del autor aparece en todos sus artículos pasados. El dataset incluye autores, instituciones canonizadas, países, regiones, resúmenes y URLs de OpenReview. Se aplican aproximadamente 250 reglas para normalizar variantes de nombres institucionales como MIT, CSAIL o HKUST. El 96% de los artículos se parsean correctamente; el 4% restante recurre a datos de perfil de OpenReview. Las instituciones se cuentan una vez por artículo, independientemente de cuántos autores estén afiliados a ella. El repositorio también ofrece variantes: solo primer autor y crédito fraccional 1/N para análisis de sensibilidad.