Prior conjugada

Una prior conjugada es una conveniencia algebraica, que da una expresión de forma cerrada para la posterior; de lo contrario, puede ser necesaria la integración numérica.

Además, las a priori conjugadas pueden ser más intuitivas al mostrar de forma más transparente cómo una función de verosimilitud actualiza una distribución a priori.

El concepto, así como el término "prior conjugada", fueron introducidos por Howard Raiffa y Robert Schlaifer en sus trabajos sobre la teoría bayesiana de la decisión.

[1]​ Un concepto similar había sido descubierto independientemente por George Alfred Barnard.

Por ejemplo, consideremos una variable aleatoria que consiste en el número de aciertos

Ensayo Bernoulli con probabilidad desconocida de éxito

se eligen para reflejar cualquier creencia o información existente (

es la función Beta que actúa como constante normalizadora.

Esta distribución posterior podría utilizarse como prior para más muestras, y los hiperparámetros simplemente añadirían cada dato adicional a medida que se obtuviera.

de una distribución beta puede considerarse como correspondiente a

fallos si se utiliza el modo posterior para elegir un ajuste óptimo de los parámetros, o

fallos si se utiliza la media posterior para elegir un ajuste óptimo de los parámetros.

En general, para casi todas las distribuciones a priori conjugadas, los hiperparámetros pueden interpretarse en términos de pseudo-observaciones.

Se puede pensar en el condicionamiento prior conjugado como la definición de una especie de sistema dinámico (en tiempo discreto): a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" del sistema, correspondiente al "aprendizaje".

Esto vuelve a ser análogo al sistema dinámico definido por un operador lineal, pero hay que tener en cuenta que, dado que muestras diferentes conducen a inferencias diferentes, esto no depende simplemente del tiempo, sino más bien de los datos a lo largo del tiempo.

Para enfoques relacionados, véase Estimación bayesiana recursiva y Asimilación de datos.

Puedes encontrar y alquilar los carros usando una aplicación.

Utilizando esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un coche disponible un día determinado:

Con relativamente pocos puntos de datos, deberíamos estar bastante inseguros sobre qué distribución de Poisson exacta generó estos datos.

Generalmente, esta cantidad se conoce como distribución predictiva posterior

En general, esta integral es difícil de calcular.

Sin embargo, si se elige una distribución prior conjugada

,se puede derivar una expresión de forma cerrada.

Esta es la columna de predicción posterior en las tablas siguientes.

Observando los gráficos de la distribución gamma, elegimos

, que parece ser una prioridad razonable para el número medio de coches.

La elección de hiperparámetros a priori es inherentemente subjetiva y se basa en conocimientos previos.

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que la predicción posterior tiene en cuenta.

En todos los casos siguientes, se supone que los datos constan de n puntos

(que serán vectores aleatorios en los casos multivariantes).