El tamaño muestral efectivo: qué pierdes al reponderar datos

Fuentes: The effective sample size
Imagen generada por IA con el prompt: Editorial illustration of scattered data points on a scatter plot, a few highlighted in red and dominating the rest; minimalist, clean lines, muted blue and red palette, statistical theme.
Imagen generada con IA

El tamaño muestral efectivo es la magnitud que cuantifica el precio estadístico que se paga al reponderar observaciones: a cambio de reducir el sesgo, se asume un aumento de la varianza. Cuando unas pocas observaciones concentran la mayor parte de la suma de pesos, el resto del conjunto apenas aporta información y cualquier error —un valor atípico, una etiqueta incorrecta, un peso mal calibrado— se filtra directamente en el estimador, sin que ninguna media lo compense. El artículo define formalmente esta magnitud tras normalizar los pesos, y muestra que su expresión coincide con la fórmula clásica de Kish para el tamaño muestral efectivo en encuestas.

El texto ofrece dos derivaciones independientes que convergen en el mismo resultado. La primera parte de la varianza de una suma de variables aleatorias normales y demuestra que la varianza de un promedio ponderado es la recíproca del cuadrado de la suma de pesos normalizados, lo que lleva de forma natural al tamaño muestral efectivo. La segunda apela a la desigualdad de Hoeffding, válida para variables acotadas, y demuestra que el peor caso de un promedio ponderado coincide con el de un promedio uniforme sobre un conjunto de ese tamaño.

Entre las aplicaciones prácticas destaca el aprendizaje por refuerzo off-policy, donde el búfer de repetición almacena transiciones recogidas con políticas antiguas que se reponderan para entrenar la política actual; el tamaño muestral efectivo indica cuándo la corrección deja de merecer la pena. También se menciona su uso diagnóstico en el filtro de partículas del Monte Carlo secuencial, donde señala cuándo conviene remuestrear.