Distribución empírica

En estadística, una función de distribución empírica (comúnmente llamada función de distribución empírica, FDe) es la función de distribución asociada con una medida empírica de una muestra.

Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

sean n variables aleatorias reales independientes e idénticamente distribuidas que se distribuyen según la función de distribución acumulativa

En ese caso, la función de distribución empírica se define como[2][3]

es una variable aleatoria de Bernoulli con el parámetro

Sin embargo, en algunos libros de texto, se define alternativamente como:

que se denota más comúnmente

es un estimador imparcial de la varianza de la distribución poblacional, para cualquier distribución de X que tenga una varianza finita.

El error cuadrático medio para la distribución empírica es el siguiente.

(léase "techo de a") denota el entero mínimo mayor o igual que

Para cualquier número real a, la notación

(léase "piso de a") denota el entero mayor menor o igual que

-th quantile es único y es igual a

-th no es único y es cualquier número real

tiende a infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas.

Además, por la ley fuerte de los números grandes, el estimador

casi con seguridad, para cada valor de

Esta expresión establece que hay convergencia puntual de la función de distribución empírica a la verdadera función de distribución acumulativa.

Un resultado más lógicamente fuerte, llamado el teorema de Glivenko-Cantelli, establece que la convergencia de hecho ocurre uniformemente sobre t:[6]

La norma del suprmeo en esta expresión se llama estadística de Kolmogorov–Smirnov para la bondad del ajuste entre la distribución empírica

y la verdadera función de distribución acumulativa asumida

Puedne usarse otras normas como, por ejemplo, la norma L2, lo que da lugar a la estadística de Cramér-von Mises.

La distribución asintótica se puede caracterizar de varias maneras diferentes.

En primer lugar, el teorema del límite central establece que pointwise,

||left} Este resultado se extiende por el teorema de Donsker, que afirma que el proceso empírico

, converge en distribución en el espacio de Skorokhod

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar por el resultado conocido como incrustación húngara:[7]

Según desigualdad de Dvoretzky-Kiefer-Wolfowitz el intervalo que contiene el verdadero CDF,

se especifica como De acuerdo con los límites anteriores, podemos trazar los intervalos empíricos CDF, CDF y Confidence para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas.

A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.