Estimación de Densidad de Kernel

En algunos campos, como el procesamiento de señales y la econometría, también se denomina método de la ventana de Parzen-Rosenblatt, en honor a Emanuel Parzen y Murray Rosenblatt, a quienes se suele atribuir su creación independiente en su forma actual.

[3]​ Sean (x1, x2, ..., xn) muestras independientes e idénticamente distribuidas extraídas de alguna distribución univariante con una densidad desconocida ƒ en cualquier punto dado x.

Nos interesa estimar la forma de esta función ƒ.

Donde K es el núcleo (una función no negativa) y h > 0 es un parámetro de suavizado denominado ancho de banda.

Un kernel con el subíndice h se denomina kernel escalado y se define como Kh(x) = 1/h K(x/h).

Intuitivamente, uno quiere elegir h tan pequeño como permitan los datos; sin embargo, siempre hay un compromiso entre el sesgo del estimador y su varianza.

La elección del ancho de banda se analiza con más detalle a continuación.

Se suele utilizar una serie de funciones de kernel: uniforme, triangular, biponderada, triponderada, Epanechnikov, normal y otras.

El kernel de Epanechnikov es óptimo en el sentido del error cuadrático medio,[5]​ aunque la pérdida de eficiencia es pequeña para los kernels enumerados anteriormente.

[6]​ Debido a sus convenientes propiedades matemáticas, a menudo se utiliza el kernel normal, que significa K(x) = ϕ(x), donde ϕ es la función de densidad normal estándar.

La suavidad de la estimación de la densidad del kernel (en comparación con la discreción del histograma) ilustra cómo las estimaciones de la densidad del kernel convergen más rápidamente a la verdadera densidad subyacente para variables aleatorias continuas.

[8]​ El ancho de banda del kernel es un parámetro libre que influye mucho en la estimación resultante.

Para ilustrar su efecto, tomamos una muestra aleatoria simulada de la distribución normal estándar (representada en los picos azules del rug plot en el eje horizontal).

En comparación, la curva roja está poco suavizada, ya que contiene demasiados datos espurios debido a la utilización de un ancho de banda h = 0,05, que es demasiado pequeño.

La curva verde está demasiado suavizada, ya que el ancho de banda h = 2 oculta gran parte de la estructura subyacente.

la estimación conserva la forma del núcleo utilizado, centrada en la media de las muestras (completamente lisa).

El criterio de optimalidad más utilizado para seleccionar este parámetro es la función de riesgo L2 esperado, también denominada error cuadrático medio integrado:

Para superar esa dificultad, se han desarrollado diversos métodos automáticos basados en datos para seleccionar el ancho de banda.

Sustituyendo cualquier ancho de banda h que tenga el mismo orden asintótico n-1/5 que hAMISE en el AMISE se obtiene que AMISE(h) = O(n-4/5), donde O es la notación big o.

[21]​ Obsérvese que el ritmo n-4/5 es más lento que el típico ritmo de convergencia n-1 de los métodos paramétricos.

[22]​ Si se utilizan funciones de base gaussiana para aproximar datos univariantes, y la densidad subyacente que se estima es gaussiana, la elección óptima para h (es decir, el ancho de banda que minimiza el error cuadrático medio integrado) es:[23]​

se considera más robusto cuando mejora el ajuste para distribuciones de cola larga y sesgadas o para distribuciones de mezcla bimodales.

Esto suele hacerse empíricamente sustituyendo la desviación típica

[23]​ Aunque esta regla empírica es fácil de calcular, debe utilizarse con precaución, ya que puede dar lugar a estimaciones muy imprecisas cuando la densidad no se aproxima a la normalidad.

Por ejemplo, al estimar el modelo de mezcla gaussiana bimodal:

Dada la muestra (x1, x2, ..., xn), es natural estimar la función característica φ(t) = E[eitX] como:

se multiplica por una función de amortiguación ψh(t) = ψ(ht) , que es igual a 1 en el origen y luego cae a 0 en el infinito.

permanece prácticamente inalterado en la región más importante de t's.

La elección más común para la función ψ es la función uniforme ψ(t) = 1{−1 ≤ t ≤ 1}, lo que significa truncar el intervalo de integración en la fórmula de inversión a [−1/h, 1/h] o la función gaussiana ψ (t) = eπt2.

Una vez elegida la función ψ, se puede aplicar la fórmula de inversión, y el estimador de densidad será:

Estimación de la densidad del núcleo de 100 números aleatorios distribuidos normalmente utilizando diferentes anchos de banda de suavizado.
Comparación del histograma (izquierda) y la estimación de la densidad del kernel (derecha) construidos con los mismos datos. Los seis núcleos individuales son las curvas rojas discontinuas, y la estimación de la densidad del núcleo, las curvas azules. Los puntos de datos son el rug plot (diagrama de alfombra) en el eje horizontal.
Estimación de la densidad del núcleo (KDE) con diferentes anchos de banda de una muestra aleatoria de 100 puntos de una distribución normal estándar. Gris: densidad real (normal estándar). Rojo: KDE con h=0,05. Negro: KDE con h=0,337. Verde: KDE con h=2.
Comparación entre la regla empírica y el ancho de banda de resolución de ecuaciones.