Correlación de la distancia

Por lo tanto, la correlación de la distancia mide tanto la asociación lineal como la no lineal entre dos variables aleatorias o vectores aleatorios.

Los primeros resultados sobre la correlación de la distancia se publicaron en 2007 y 2009.

Estas cantidades tienen los mismos roles que los momentos ordinarios, con los nombres correspondientes en la especificación del coeficiente de correlación de Pearson.

Sea (Xk, Yk), k = 1, 2, ..., n una muestra estadística de un par de valores reales o variables aleatorias con valores vectoriales (X, Y).

Primero, se calculan las matrices de distancias (de orden nxn) (aj, k) y (bj, k) que contienen todas las distancias por pares donde ||⋅|| denota la norma vectorial.

Luego, se toman todas las distancias doblemente centradas donde

La notación es similar para los valores de b.

En las matrices de la distancias centradas ( Aj, k) y ( Bj,k), todas las filas y todas las columnas se suman cero.

Para un ejemplo, véase la función dcov.test en el paquete informático energy escrito en lenguaje R.[4]​ El valor poblacional de la covarianza de la distancia puede definirse en la misma línea.

Sea X una variable aleatoria que toma valores en un espacio euclidiano dimensional p con una distribución de probabilidad μ y sea Y una variable aleatoria que toma valores en un espacio euclidiano de dimensión q con distribución de probabilidad ν, y supóngase que X e Y tienen expectativas finitas.

Escribiendo Finalmente, se define el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como Se puede demostrar que esto es equivalente a la siguiente definición: donde E denota el valor esperado, y

denotan copias independientes e idénticas, distribuidas de las variables

, y son igualmente independientes e idénticas.

se elige para producir una medida equivalente a la escala e invariante respecto a la rotación que no se anula para las variables dependientes.

es una copia independiente e idénticamente distribuida de

[9]​ La igualdad se mantiene en (iv) si y solo si una de las variables aleatorias X o Y es una constante.

Es importante tener en cuenta que esta caracterización no es válida para el exponente

a un espacio métrico con una variable aleatoria función de

(en un espacio métrico posiblemente diferente con un primer momento finito), se define Su valor es no negativo para todos los

[11]​ Si ambos espacios métricos tienen un tipo negativo fuerte, entonces

, en lugar del coeficiente cuadrático en sí mismo.

En este caso, la desviación estándar de la distancia

se mide en las mismas unidades que la distancia de

[9]​ Bajo estas definiciones alternativas, la correlación de la distancia también se define como el cuadrado

El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma: donde E denota la esperanza matemática y las primas (') denotan copias independientes e idénticamente distribuidas.

Se necesita la siguiente generalización de esta fórmula: si U(s), V(t) son procesos aleatorios arbitrarios definidos para todas las s y t reales, entonces se define la versión de X centrada en U por siempre que exista el valor esperado condicional restado, denotando por YV la versión centrada en V de Y.

[3]​[12]​[13]​ La covarianza (U, V) de (X, Y) se define como el número no negativo cuyo cuadrado es siempre que el lado derecho sea no negativo y finito.

En este caso, la covarianza (U, V) se llama covarianza browniana y se denota por Se da una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de la distancia: y por lo tanto, correlación browniana es lo mismo que correlación de la distancia.

Otras métricas correlacionales, incluidas las métricas correlacionales basadas en el núcleo (como el "Criterio de Independencia de Hilbert-Schmidt" o HSIC) también pueden detectar interacciones lineales y no lineales.

Tanto la correlación de la distancia como las métricas basadas en el núcleo se pueden usar en métodos como análisis de la correlación canónica y análisis de componentes independientes para obtener un poder estadístico más fuerte.

Diversos conjuntos puntos ( x , y ), con el coeficiente de la distancia de correlación de x e y para cada conjunto. Compárese con el gráfico sobre correlación