La distribución muestral de un estadístico es esencial para comprender cómo se comporta dicho estadístico en diferentes muestras tomadas de la misma población. A continuación, exploraremos este concepto en detalle.
8.1 Distribución muestral
La distribución muestral de un estadístico se refiere a la distribución de dicho estadístico basada en todas las posibles muestras de un tamaño dado que se pueden obtener de una población.
Formalmente, si \(X_1,\dots,X_n\) es una muestra con parámetro desconocido \(\theta\), y \(T=r(X_1,\dots,X_n,\theta)\), entonces la distribución de \(T\) dado \(\theta\) se llama distribución muestral.
Ejemplo 8.1 Considere una población con distribución \(N(\mu,\sigma^2)\) con \(\sigma^2\) conocido. El estimador de máxima verosimilitud (MLE) de \(\mu\) es:
La distribución muestral de \(\bar X_n\) es \(N\left(\mu,\dfrac{\sigma^2}{n}\right)\), donde \[\begin{align*}
\mathbb E[\bar X_n] & = \dfrac 1n\displaystyle\sum_{i=1}^n\mathbb E[X_i] = \dfrac
1n\cdot n \mathbb E[X_1] = \mu \\
\text{Var}(\bar X_n) & = \text{Var}\left(\dfrac 1n \displaystyle\sum_{i=1}^n
X_i\right) = \dfrac{1}{n^2}\cdot n\cdot \text{Var}(X_1) = \dfrac{\sigma^2}{n}.
\end{align*}\]
Ejemplo 8.2 Suponga que \(X_i\) para \(i=1, 2, 3\) es el tiempo de vida de un aparato, cuya distribución es Además, \(\text{Exp}(\theta)\). Suponga que queremos estimar \(\mathbb P(|\hat\theta-\theta|<0.1)\). Usemos los enfoques bayesianos y frecuentistas para resolver el problema.
8.1.1 Enfoque bayesiano
Suponga que la previa de \(\theta\) es \(\Gamma(1,2)\). La posterior sería
Observación. Recuerde que sumas de exponenciales es una gamma. (Ver teorema 5.7.7 del libro).
Entonces \(T=\sum_{i=1}^{3}X_{i}\sim \Gamma(3,\theta)\), por lo que \(F(t|\theta) =
1-G_{\Gamma(3,0)}\left( \dfrac 4t-2\right)\). Aqui denotamos como \(G\) a la distribución de \(T\).
y se toma la esperanza para estimar la probabilidad. Este valor no se puede estimar de forma cerrada, sino que se podría aproximar mediante una simulación
Aproximación Gamma
8.1.1.1 Enfoque frequentista
Otra solución es estimar la probabilidad de que \(\theta\) y \(\hat{\theta}\) estén cerca de forma relativa. Usando el MLE \(\hat{\theta} = \frac{3}{T}\), se podría construir esa probabilidad de forma que no dependa de \(\theta\).
En realidad esta distribución es una distribución gamma con parámetros \(\alpha = \dfrac m2\) y \(\beta = \dfrac 12\) (con parámetro de forma).
El siguiente gráfico muestra la distribución \(\chi^2\) para diferentes valores de \(m\).
Código
# Generar datosx <-seq(0, 30, length.out =1000)df_values <-c(5, 10, 15) # Grados de libertad a ilustrardensities <-lapply(df_values, function(df) {dchisq(x, df)})# Convertir a data.frame para ggplotdf <-data.frame(x =rep(x, length(df_values)),density =unlist(densities),df =factor(rep(df_values, each =length(x))))# Crear el gráficoggplot(df, aes(x = x, y = density, color = df)) +geom_line(linewidth =2) +labs(title ="Distribución Chi-cuadrado",x ="Valor",y ="Densidad",color ="Grados de libertad" ) + cowplot::theme_cowplot() +scale_color_brewer(palette ="Dark2")
Estas distribuciones tiene propiedades interesantes que se enuncian a continuación.
Propiedades
\(\mathbb E[X] = m\).
\(\text{Var} (X) = 2m\).
Para \(X_i \sim \chi^2_{m_i}\), \(i = 1,\dots, k\), independientes, entonces \[\sum_{i=1}^k X_i \sim \chi^2_{\sum m_i}\]
Si \(X\sim N(0,1) \implies Y = X^2\sim \chi^2_1\).
Si \(X_i \stackrel{i.i.d}{\sim} N(0,1) \implies \sum_{i=1}^m X_i^2 = \chi^2_m\).
Ejemplo 8.3 Consideremos una muestra \(X_1,\dots,X_n\) de una distribución normal \(N(\mu,\sigma^2)\). Si transformamos cada observación como \(Z = \dfrac{X_i-\mu}{\sigma}\), cada \(Z\) sigue una distribución \(N(0,1)\).
Por lo tanto, la suma de los cuadrados de estas transformaciones sigue una distribución chi-cuadrado con nn grados de libertad:
En el ejercicio anterior el \(\mu\) es conocido. Si suponemos que \(\mu\) es desconocido. Entonces, ¿Cuál es la distribución muestral de \((\bar X_n,\hat\sigma^2)\)? EL siguiente cuadro resume sus propiedades.
Más propiedades de las distribuciones \(\chi^2\)
Bajo las condiciones anteriores,
\(\bar X_n\) y \(\hat \sigma_n\) son independientes aunque \(\hat \sigma_n\) es función de \(\bar X_n\).
La distribución muestral de \(\bar X_n\) es \(N\left(\mu,\dfrac{\sigma^2}{n}\right)\).
Si \(\hat{\sigma}_0 = \frac{1}{n} \sum_{i=1}^{n}(X_{i} -\mu)^2\), entonces \[\begin{equation*}
n\dfrac{\hat \sigma_{0}^2}{\sigma^2} =\sum_{i=1}^n \frac{{(X_i-\mu)}^2}{\sigma^2} \sim \chi^2_{n-1}
\end{equation*}\].
La primera propiedad solo ocurre con distribuciones normales. La prueba no es díficil y es interesante entenderla.
Proposición 8.1 Una matriz \(A_{n\times n}\) es ortogonal si cumple que \(A^{-1} = A\) y \(\det(A) = 1\). Además si \(X, Y\in \mathbb R ^{n}\), y definimos \(AX =Y\) con \(A\) ortogonal, entonces \[
\|Y\|_2^2 = \|X\|_2^2.
\]
Teorema 8.1 Si \(X_1,\dots,X_n \sim N(0,1)\), \(A\) es ortogonal \(n\times n\) y \(Y=AX\) donde \(X = (X_1,\dots,X_n)^T\) entonces \(Y_1,\dots,Y_n \sim N(0,1)\).
Prueba
Si \(X_1,\dots,X_n \sim N(0,1)\), use Gram-Schmidt con vector inicial
\[\begin{equation*}
u = \left[ \frac{1}{\sqrt{n}}, \cdots, \frac{1}{\sqrt{n}}\right]
\end{equation*}\]
\[\begin{equation*}
p = \mathbb P \bigg[|\hat\mu-\mu|<\dfrac {\sigma}{5}, |\hat\sigma-\sigma|<\dfrac \sigma 5\bigg] \geq \dfrac 12.
\end{equation*}\]
Por independencia de \(\bar X_n\) y \(\hat\sigma^2_n\), \[p= \mathbb P \bigg[|\hat\mu-\mu|<\dfrac \sigma5\bigg] \mathbb P \bigg[|\hat\sigma-\sigma|<\dfrac \sigma5\bigg]\]
Por un lado, \[\mathbb P \bigg[|\hat\mu-\mu|<\dfrac \sigma5\bigg] = \mathbb P \bigg[-\dfrac{\sqrt n}5\leq \underbrace{\dfrac{\sqrt{n}(\hat\mu-\mu)}\sigma}_{N(0,1)} <\dfrac {\sqrt n}{5}\bigg] = \Phi\left(\dfrac{\sqrt n}{5}\right)-\Phi\left(-\dfrac{\sqrt n}{5}\right).\]
Se resuelve numéricamente, y si \(n=21\) se cumple.
Código
n <-1:30probabilidad <- (1-2*pnorm(-sqrt(n) /5)) * (pchisq((6/5)^2* n, df = n -1) -pchisq((4/5)^2* n, df = n -1))ggplot(data =data.frame(n, probabilidad),aes(n, probabilidad), linewidth =2) +geom_line(, linewidth =2) +geom_hline(yintercept =1/2,linetype ="dashed", color ="red", linewidth =2 ) +geom_vline(xintercept =21,linetype ="dashed", color ="red", linewidth =2 ) + cowplot::theme_cowplot()
8.3 Distribución \(t\)
Otra familia de distribuciones importantes son las distribuciones \(t\) de Student. Estas distribuciones son una generalización de la distribución normal. Tanto la distribución \(\chi^2\) como la distribución \(t\) son serán usadas extensivamente a través de este lo que resta de este libro.
Definición 8.2 Considere \(Y\) y \(Z\) dos variables independientes tal que \(Y\sim \chi^2_m\) y \(Z\sim N(0,1)\). Defina la variable aleatoria \(X\) como \[\begin{equation*}
X = \dfrac Z{\sqrt{\dfrac Ym}}.
\end{equation*}\]
Entonces la distribución de \(X\) se llama distribución \(t\) de Student con \(m\) grados de libertad. Se denota como \(X\sim t_m\). Esta distribución tiene como densidad
Unas propiedades importantes de esta distribución se enuncian a continuación.
Propiedades
La distribución \(t\) de Student es simétrica.
La media de \(X\) no existe si \(m\leq 1\). Si la media existe, es 0.
Las colas de una \(t\) de Student son más pesadas que una \(N(0,1)\). Esto quiere decir que la probabilidad de que una variable aleatoria \(X\) tome valores muy grandes o muy pequeños es mayor que la probabilidad de que una variable aleatoria \(Y\) tome valores muy grandes o muy pequeños, si \(X\sim t_m\) y \(Y\sim N(0,1)\).
Si \(m\) es entero, los primeros \(m-1\) momentos de \(X\) existen y no hay momentos de orden superior.
Si \(m>2\), entonces \(\text{Var}\left(X \right)=\dfrac m{m-2}\).
Si \(m=1\), \(X\sim \text{Cauchy}\).
Ejercicio: Pruebe que \(f_x(x)\xrightarrow[m\to \infty]{}\Phi(x)\). Es decir, la distribución \(t\) de Student converge a la distribución normal estándar cuando \(m\) es grande (la distribución \(t\)-student sirve como aproximación de la normal). La discrepancia de ambas está en la cola y se disipa cuando \(m\) es grande.
Una propiedad importante es que nos va a permitir aproximar estadísticos cuando \(\mu\) y \(\sigma\) son desconocidos.
Note primero que de la sección anterior, sabemos que si \(X_1,\dots,X_n \sim N(\mu,\sigma^2)\), entonces \(\bar X_n \sim N\left(\mu,\dfrac{\sigma^2}{n}\right)\) y \(\dfrac{n\hat\sigma^2}{\sigma^2}\sim \chi^2_{n-1}\) son independientes. Ademas definamos la varianza muestral como:
Ahora según lo que vimos en la sección anterior, si \(Y_n = \dfrac{n\hat{\sigma}^2}{\sigma^2}= \dfrac{S_n^2}{\sigma^2}\sim \chi^2_{n-1}\), entonces
\[\begin{align*}
T = \dfrac{Z_n}{\sqrt{\dfrac Y{n-1}}}
& = \dfrac{\dfrac{\sqrt n}\sigma (\bar X_n-\mu)}{\sqrt{\dfrac{\dfrac{S_n^2}{\sigma^2}}{n-1}}} \\
& = \dfrac{\sqrt n (\bar X_n-\mu)}{\sqrt{\dfrac{S_n^2}{n-1}}} \\
& = \dfrac{\sqrt n (\bar X_n-\mu)}{s_n} \sim t_{n-1}.
\end{align*}\]
Observación. Si \(n\) es grande, entonces \(s_n^2 \approxeq \hat{\sigma}^2\) ya que \(s_n^2 = \left(\dfrac n{n-1}\right) \hat{\sigma}^2\).
Ejemplo 8.5
Código
# Crear un conjunto de datos con valores de las tres distribucionesset.seed(123)n <-1000# Tamaño de la muestradf <-data.frame(t_student =rt(n, df =5), # Distribución t con 5 grados de libertadcauchy =rcauchy(n),normal =rnorm(n))# Crear un gráfico de densidad para las tres distribucionesggplot(data.frame(x =seq(-5, 5, length.out =100)), aes(x)) +geom_function(fun = dt,args =list(df =5),aes(color ="t_5"),linewidth =1.5 ) +geom_function(fun = dcauchy,aes(color ="Cauchy"),linewidth =1.5 ) +geom_function(fun = dnorm,aes(color ="Normal(0,1)"),linewidth =1.5 ) +labs(title ="Comparación de Distribuciones: t Student, Cauchy y Normal",x ="Valor",y ="Densidad" ) + cowplot::theme_cowplot()
Note este ejemplo con variables distribuciones t y normal.