Punto de información mutua

El Punto de Información Mutua (PIM) o Información Mutua Puntual, (IMP) (en inglés, Pointwise mutual information (PMI)),[1]​ es una medida de asociación utilizada en la teoría y la estadística de la información.

En contraste con la información mutua (Mutual Information, MI), que se basa en PIM, esta se refiere a los eventos individuales, mientras que MI se refiere a la media de todos los eventos posibles.

El PMI de un par de resultados x e y perteneciente a variables discretas aleatorias X e Y, cuantifican la diferencia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo independencia matemática: La información mutua (MI) de las variables aleatorias X y Y es el valor esperado del PIM sobre todos los resultados posibles (con respeto a la distribución junta

) Puede tomar valores positivos o negativos, pero es cero si X y Y es independiente.

Note que incluso aunque PIM puede ser negativo o positivo, su resultado esperado sobre todos los acontecimientos de junta (MI) es positivo.

Aquí, un ejemplo para ilustrar: Utilizando esta tabla podemos distribuir de manera marginal para conseguir la siguiente tabla adicional para las distribuciones individuales: Con este ejemplo, podemos computar cuatro valores para .

p m i ( x ; y )

Utilizando logaritmo base-2: (Para referencia, la información mutua entonces sería 0.214170945)

El punto de información mutua tiene muchas relaciones de semejanza con la información mutua.

El punto de información mutua puede ser normalizada entre [-1,+1] resultando en -1 (en el límite) para nunca ocurriendo junto, 0 para independencia, y +1 para completo co-ocurrencia.

Esto es fácilmente demostrado por: En lingüística computacional, PMI ha sido usado para encontrar colocaciones y asociaciones entre palabras.

Por ejemplo, los conteos de occurrencias y co-ocurrencias de las palabras en un corpus puede ser usado para aproximar las probabilidades

La siguiente tabla muestra pares de palabras y sus conteos de ocurrencias y co-ocurrencias los primeros 50 millones de palabras en la Wikipedia en español (descarga de octubre del 2015) filtrando aquellos pares con 1.000 o más co-ocurrencias.

La tabla muestra los pares de palabras con los 10 mayores y 10 menores valores de PMI.