09 Jun 2026 · Original en inglés · Artículo

El tamaño muestral efectivo: qué pierdes al reponderar datos

Fuentes: The effective sample size

Imagen generada por IA con el prompt: Editorial illustration of scattered data points on a scatter plot, a few highlighted in red and dominating the rest; minimalist, clean lines, muted blue and red palette, statistical theme. — Imagen generada con IA

El tamaño muestral efectivo es la magnitud que cuantifica el precio estadístico que se paga al reponderar observaciones: a cambio de reducir el sesgo, se asume un aumento de la varianza. Cuando unas pocas observaciones concentran la mayor parte de la suma de pesos, el resto del conjunto apenas aporta información y cualquier error —un valor atípico, una etiqueta incorrecta, un peso mal calibrado— se filtra directamente en el estimador, sin que ninguna media lo compense. El artículo define formalmente esta magnitud tras normalizar los pesos, y muestra que su expresión coincide con la fórmula clásica de Kish para el tamaño muestral efectivo en encuestas.

El texto ofrece dos derivaciones independientes que convergen en el mismo resultado. La primera parte de la varianza de una suma de variables aleatorias normales y demuestra que la varianza de un promedio ponderado es la recíproca del cuadrado de la suma de pesos normalizados, lo que lleva de forma natural al tamaño muestral efectivo. La segunda apela a la desigualdad de Hoeffding, válida para variables acotadas, y demuestra que el peor caso de un promedio ponderado coincide con el de un promedio uniforme sobre un conjunto de ese tamaño.

Entre las aplicaciones prácticas destaca el aprendizaje por refuerzo off-policy, donde el búfer de repetición almacena transiciones recogidas con políticas antiguas que se reponderan para entrenar la política actual; el tamaño muestral efectivo indica cuándo la corrección deja de merecer la pena. También se menciona su uso diagnóstico en el filtro de partículas del Monte Carlo secuencial, donde señala cuándo conviene remuestrear.

Etiquetas

effective sample size importance sampling covariate shift variance estimation hoeffding inequality kish's formula off-policy reinforcement learning replay buffer sequential monte carlo particle filter

Entidades mencionadas

Kish's effective sample size protocol_standard

Hoeffding's inequality protocol_standard

P3O software

FeynRL software

Enlaces

Kish’s effective sample size en.wikipedia.org

Hoeffding’s inequality en.wikipedia.org

Sequential Monte Carlo en.wikipedia.org