En estadística, la varianza agrupada (también conocida como combinada, compuesta, o varianza general) es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente, pero se puede suponer que la varianza de cada población es la misma.
La raíz cuadrada de un estimador de varianza agrupada se conoce como desviación estándar agrupada (o también como combinada, compuesta o desviación estándar general).
En estadística, muchas veces, los datos se recopilan para una variable dependiente y, en un rango de valores para la variable independiente x.
Por ejemplo, la observación del consumo de combustible podría estudiarse en función de la velocidad del motor mientras la carga del motor se mantiene constante.
Si, para lograr una varianza pequeña en y, se requieren numerosas pruebas repetidas para cada valor de x, el costo de la prueba puede volverse prohibitivo.
Si las poblaciones están indexadas de acuerdo con
y la estimación de probabilidad máxima sesgada se utilizan en diferentes contextos.
cuando los dos grupos comparten una variación de población igual.
en el lado derecho de ambas ecuaciones son las estimaciones no sesgadas.
Considérese el siguiente conjunto de datos para y, obtenidos en varios niveles de la variable independiente x.
El número de ensayos, la media, la varianza y la desviación estándar se presentan en la siguiente tabla.
Estas estadísticas representan la varianza y la desviación típica para cada subconjunto de datos en los diversos niveles de x.
Si se puede asumir que los mismos fenómenos están generando errores experimentales en cada nivel de x, los datos anteriores se pueden "agrupar" para expresar una estimación única de varianza y desviación estándar.
En cierto sentido, esto sugiere encontrar una varianza media o una desviación estándar entre los cinco resultados anteriores.
Esta variación media se calcula ponderando los valores individuales con el tamaño del subconjunto para cada nivel de x.
Así, la varianza agrupada se define por donde n1, n2,.
La variación de los datos para los conjuntos de datos que no se superponen es: Donde la media se define como: Dada una probabilidad máxima sesgada definida como: Entonces, el error en la estimación de probabilidad máxima sesgada es: Asumiendo que N es grande y tal que: entonces el error en la estimación se reduce a: O alternativamente: En lugar de estimar la desviación estándar agrupada, a continuación se describe la forma de agregar de forma exacta la desviación estándar cuando hay más información estadística disponible.
También se asume que el número de hombres, N, es igual al número de mujeres.
Entonces, la media y la desviación estándar de las alturas de los adultos estadounidenses podrían calcularse como Para el caso más general de poblaciones no superpuestas M, X1 hasta XM, y población agregada
, donde Si se conoce el tamaño, la media y la desviación estándar de dos muestras superpuestas para cada muestra, así como su intersección, la desviación estándar de la muestra agregada aún se puede calcular.