10  Intervalos de credibilidad

El análogo Bayesiano a los intervalos de confianza se llama intervalos de credibilidad (o de veracidad). Recordemos que en la estadística frecuentista la interpretación de un intervalo de confianza se hace tratando al intervalo como variable aleatoria, por lo que es incorrecto decir que \(\theta\) se encuentra entre tanto y tanto con tanta probabilidad. Sin embargo, en el punto de vista Bayesiano si es posible hacer una conclusión como esa pues tenemos todo un modelo probabilístico a posteriori sobre los posibles valores que podría tomar \(\theta\).

Existen dos formas usualmente utilizadas para obtener intervalos de credibilidad. Los primeros son más sencillos de obtener con cálculos sencillos. Los segundos requieren algún programa como R o Python para estimar los cuantiles de la distribución a posteriori.

Supongamos que tenemos muestras iid \(x = (x_1, ..., x_n)\) de alguna distribución con parámetro desconocido \(\Theta\). Dada la distribución a priori para la variable aleatoria \(\Theta\).

Definición 10.1 (Intervalo central de credibilidad) Un intervalo creíble al \(1 - \alpha\) para \(\theta\) es un intervalo \([a, b]\) tal que la probabilidad de que \(\theta\) esté en el intervalo es \(1 - \alpha\):

\[\begin{align*} \mathbb{P}(\theta \in [a, b]) & = 1 - \alpha \\ P(\theta \leq a|x) = P(\theta \geq b |x) & = \frac{\alpha}{2} \end{align*}\]

Si la función de distribución de la posterior es \(F\), entonces un intervalo creíble del \(100(1 - \alpha)\%\) está dado por \[ \left( F^{-1}\left(\frac{\alpha}{2}\right), F^{-1}\left(1 - \frac{\alpha}{2}\right) \right) \]

Observación. Por lo general los intervalos centrales de credibilidad están centrados alrededor de la media de la distribución posterior (si la posteriori es bastante simétrica). También se pueden definir las versiones unilaterales de estos intervalos.

HDIofICDF <- function(qfunc, credMass = 0.95, ...) {
    incredMass <- 1.0 - credMass
    intervalWidth <- function(lowTailPr) {
        return(diff(qfunc(c(lowTailPr, credMass + lowTailPr), ...)))
    }
    HDIlowTailPr <- optimize(intervalWidth,
        interval = c(0, incredMass),
        tol = 1e-8
    )$minimum
    return(qfunc(c(HDIlowTailPr, credMass + HDIlowTailPr), ...))
}

Un problema con los intervalos centrales es que puede haber puntos fuera del intervalo central que tienen mayor probabilidad que los puntos que están dentro, como se ilustra la figura anterior.

Una alternativa a este tipo de intervalos son los intervalos de credibilidad de máxima densidad a posteriori (HPD por sus siglas en inglés). Estos intervalos son los más pequeños posibles que contienen una probabilidad de \(1-\alpha\) de la distribución a posteriori. Formalmente se define como

Definición 10.2 (Intervalo de credibilidad de máxima densidad a posteriori) Un intervalo de credibilidad de máxima densidad a posteriori (HPD) de probabilidad \(1-\alpha\) es un intervalo \(H(c)\) tal que

\[\begin{equation*} H(c) = \left\lbrace \theta : \pi(\theta|x) \geq c \right\rbrace \end{equation*}\]

El valor \(c\) se encuentra de forma que \(P(\theta \in H(c) | x) = 1- \alpha\). Encontrar este tipo de intervalos equivale a dibujar líneas horizontales en la densidad a posteriori a partir de la moda e ir bajando la línea horizontal (el valor de \(c\)) hasta que por debajo de esa línea se acumule una probabilidad de \(1-\alpha\).

Para una distribución unimodal, el HDP será el intervalo más estrecho alrededor de la moda que contiene 95% de la masa. Para ver esto imaginemos “llenado de agua” al revés, donde bajamos el nivel hasta el 95% de la masa se revela y sólo el 5% queda sumergido. Esto proporciona un algoritmo simple para calcular el HDPs en el caso uno dimensional: simplemente busque puntos tales que el intervalo contenga el 95% de la masa y tenga ancho mínimo. Esto se puede hacer mediante optimización numérica en una dimensión si conocemos la CDF inversa del distribución, o mediante búsqueda en los puntos de datos ordenados si tenemos varias muestras.

Si la distribución posterior es multimodal, es posible que el HDP ni siquiera sea una región conectada. Vea la siguiente figura por ejemplo. Sin embargo, trabajar con posteriores multimodales siempre es difícil y este comportamiento es esperable.

Veremos un ejemplo para un intervalo de credibilidad de colas iguales:

Ejemplo 10.1 Sea \(X_1 , X_2 , ... , X_n\) una muestra aleatoria tal que \(X_j \sim N(\mu,\sigma^2)\), donde \(\sigma^{2}\) es conocido. Obtenga un intervalo de credibilidad de colas iguales para \(\mu\) de probabilidad \(1-\alpha\) utilizando como priori una distribución Uniforme.

Lo primero que tenemos que hacer es encontrar la distribución a posteriori para \(\mu\). Como la priori es uniforme entonces tenemos que

\[\begin{align*} \pi(\mu|x) & \propto \mathcal{L}(\mu|x) \\ & = (2\pi)^{-\frac{n}{2}} (\sigma^2)^{-\frac{n}{2}} e^{-\dfrac{\sum_{i=1}^{n} (x_j - \mu)^{2} }{2\sigma^2}} \\ & \propto e^{-\dfrac{\sum_{i=1}^{n} (x_j - \mu)^{2} }{2\sigma^2}} \end{align*}\]

Simplificando esta expresión un poco tenemos que

\[\begin{align*} e^{-\dfrac{\sum (x_j - \mu)^{2} }{2\sigma^2}} & = e^{ -\dfrac{\sum (x_j - \bar{x})^{2} + n(\bar{x} - \mu)^{2}}{2\sigma^2} } \\ & = e^{ -\dfrac{\sum (x_j - \bar{x})^{2}}{2\sigma^2} }e^{ -\dfrac{ n(\bar{x} - \mu)^{2}}{2\sigma^2} } \\ & \propto e^{ -\dfrac{ n(\bar{x} - \mu)^{2}}{2\sigma^2} } \end{align*}\]

Esta expresión se puede reescribir de la forma \(e^{ -\dfrac{ n(\mu - \bar{x})^{2}}{2\sigma^2} }\). Este es el núcleo de una distribución Normal para \(\mu\) con media \(\bar{x}\) y varianza \(\frac{\sigma^2}{n}\). Por lo tanto tenemos que \[\begin{equation*} \mu|x \sim N\left( \bar{x}, \frac{\sigma^2}{n} \right) \end{equation*}\]

Ahora podemos proceder a encontrar el intervalo de credibilidad. Tenemos que encontrar valores \(a\) y \(b\) tales que \(P(a < \mu < b|x) = 1-\alpha\) y \(P(\mu \leq a|x) = P(\mu \geq b |x) = \frac{\alpha}{2}\). Por lo tanto

\[\begin{align*} \mathbb{P}(\mu \leq a|x) & = \mathbb{P}\left( \frac{\mu - \bar{x}}{\frac{\sigma}{\sqrt{n}}} \leq \frac{a - \bar{x}}{\frac{\sigma}{\sqrt{n}}} \,\middle|\, x \right) \\ & = \mathbb{P}\left( Z \leq \frac{\sqrt{n}(a - \bar{x}) }{\sigma} \,\middle|\, x \right) = \frac{\alpha}{2} \end{align*}\]

Esto quiere decir que tenemos que buscar el cuantil de una normal estándar que acumula \(\frac{\alpha}{2}\) en su cola derecha. Este valor lo denotamos como \(z_{\frac{\alpha}{2}}\) que por simetría es igual a \(-z_{1-\frac{\alpha}{2}}\). Por lo tanto

\[\begin{equation*} \frac{\sqrt{n}(a - \bar{x}) }{\sigma} = -z_{1-\frac{\alpha}{2}} \end{equation*}\]

Por lo tanto \[\begin{equation*} \Rightarrow a = \bar{x} -z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \end{equation*}\]

Si hacemos este procedimiento para encontrar \(b\) vamos a obtener que \(b = \bar{x} + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\).

Es decir, vamos a tener una probabilidad de \(1-\alpha\) de encontrar el verdadero valor de \(\mu\) en el intervalo \(\bar{x} \pm z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\).

Si se recuerdan del capítulo pasado este intervalo es completamente idéntico al intervalo de confianza para \(\mu\) frecuentista; inclusive el estimador de Bayes es igual al estimador de máxima verosimilitud para \(\mu\). Esto se debe a que se utilizó una priori no informativa para obtener la posteriori, por lo que el resultado a posteriori es muy similar al resultado frecuentista.

Ejemplo 10.2 Suponga que se tiene muestra aleatoria \(X_1, \dots, X_{12}\) de distribución \(Ber(\theta)\) donde \(\theta\) es desconocido. Además, sabemos que \(\sum_{i=1}^{12} X_i = 11\). Suponga que se tiene una distribución a priori \(\theta \sim Beta(\alpha=7, \beta=3)\)1. Obtenga un intervalo de credibilidad de colas iguales para \(\theta\) de probabilidad \(80\%\).

1 Una regla general en la distribuciones Beta es que \(\alpha-1\) es el número de éxitos y \(\beta-1\) el de fracasos. En nuestro caso, estamos asumiendo que hemos observado 6 éxitos y 2 fracasos previamente.

2 Nuevamente esto quiere decir que estamos observando 17 éxitos totales y 3 fracasos totales

Sabemos por capítulos anteiores que elegir un previa Beta para \(\Theta\) conduce a un posterior Beta de \(\theta | x \sim Beta(11 + 7, 1 + 3) = Beta(18, 4)\) y el estimador bayesiano con pérdida cuadrática es \(\hat{\theta}_{\text{Bayes}}= \frac{17}{21}=0.8095\)2.

Buscamos un intervalo \([a, b]\) tal que \(P(a \leq \theta \leq b) = 0.8\). Si observamos la función de densidad de la Beta, estamos buscando un intervalo tal que la probabilidad de caer en esta área sea del 80%. Si el área está centrada, entonces el área a la izquierda de eso debería tener una probabilidad del 10%, y el área a la derecha de eso también debería tener una probabilidad del 10%.

Esto es equivalente a buscar \(P(\theta \leq a) = 0.1\) y \(P(\theta \leq b) = 0.9\). Para esto denotemos \(F_{Beta}\) como la distribución de la Beta \(Beta(17, 3)\). Entonces, elegimos \(a = F_{Beta}^{-1}(0.1) \approx 0.7089\) y \(b = F_{Beta}^{-1}(0.9) \approx 0.9142\), por lo que nuestro intervalo creíble es \([0.7089, 0.9142]\).

Note que \(\hat{\theta}_{\mathrm{Bayes}}\) es \(\frac{17}{21} = 0.8095\) y no está exactamente en el centro. Podríamos haber elegido cualquier \(a, b\) donde el área entre ellos es del 80%, pero recordemos que elegimos que las áreas a la izquierda y a la derecha sean iguales.

En el caso de los intervalos de máxima densidad posterior, 0.732896 y 0.9312667 son los valores que cumplen con la condición de que el área a la izquierda y a la derecha sean iguales.

Podemos interpretar que una probabilidad del 80% de que \(\theta\) caiga en el intervalo creíble \([0.7089, 0.9142]\). En notación, \(P (\theta \in [0.7089, 0.9142]) = 0.8\). Esto es correcto porque \(\Theta\) es una variable aleatoria y tiene sentido decirlo, en contraste con la interpretación de un intervalo de confianza, donde \(\theta\) es un número fijo.

10.1 Intervalos de Confianza vs. Intervalos de credibilidad

La inferencia estadística tiene dos enfoques principales: frecuentista y bayesiano. Ambos enfoques tienen sus méritos y críticos. A través de un ejemplo práctico, exploraremos las diferencias entre estos dos enfoques.

10.1.1 Enfoque Frecuentista

El enfoque frecuentista asume que hay un valor verdadero fijo para un parámetro y busca diseñar experimentos que, independientemente del valor verdadero del parámetro, produzcan conclusiones correctas con una probabilidad mínima predefinida. Para expresar la incertidumbre después de un experimento, se utiliza un “intervalo de confianza”, que es un rango de valores diseñado para incluir el valor verdadero del parámetro con una probabilidad mínima, por ejemplo, el 95%.

10.1.2 Enfoque Bayesiano

El enfoque bayesiano, por otro lado, considera que el parámetro tiene una distribución de probabilidad a priori. Después de observar los datos, esta distribución se actualiza para obtener una distribución a posteriori. Para expresar la incertidumbre, se utiliza un “intervalo creíble”, que es un rango de valores que contiene una cantidad específica, por ejemplo, el 95%, de la distribución a posteriori.

Para un ejemplo super interesante les dejo este ejemplo.