8  Distribución muestral de un estadístico

La distribución muestral de un estadístico es esencial para comprender cómo se comporta dicho estadístico en diferentes muestras tomadas de la misma población. A continuación, exploraremos este concepto en detalle.

8.1 Distribución muestral

La distribución muestral de un estadístico se refiere a la distribución de dicho estadístico basada en todas las posibles muestras de un tamaño dado que se pueden obtener de una población.

Formalmente, si \(X_1,\dots,X_n\) es una muestra con parámetro desconocido \(\theta\), y \(T=r(X_1,\dots,X_n,\theta)\), entonces la distribución de \(T\) dado \(\theta\) se llama distribución muestral.

Ejemplo 8.1 Considere una población con distribución \(N(\mu,\sigma^2)\) con \(\sigma^2\) conocido. El estimador de máxima verosimilitud (MLE) de \(\mu\) es:

\[\begin{equation*} \hat\mu = \dfrac 1n \sum_{i=1}^n X_i = \bar X_n. \end{equation*}\]

La distribución muestral de \(\bar X_n\) es \(N\left(\mu,\dfrac{\sigma^2}{n}\right)\), donde \[\begin{align*} \mathbb E[\bar X_n] & = \dfrac 1n\displaystyle\sum_{i=1}^n\mathbb E[X_i] = \dfrac 1n\cdot n \mathbb E[X_1] = \mu \\ \text{Var}(\bar X_n) & = \text{Var}\left(\dfrac 1n \displaystyle\sum_{i=1}^n X_i\right) = \dfrac{1}{n^2}\cdot n\cdot \text{Var}(X_1) = \dfrac{\sigma^2}{n}. \end{align*}\]

Ejemplo 8.2 Suponga que \(X_i\) para \(i=1, 2, 3\) es el tiempo de vida de un aparato, cuya distribución es Además, \(\text{Exp}(\theta)\). Suponga que queremos estimar \(\mathbb P(|\hat\theta-\theta|<0.1)\). Usemos los enfoques bayesianos y frecuentistas para resolver el problema.

8.1.1 Enfoque bayesiano

Suponga que la previa de \(\theta\) es \(\Gamma(1,2)\). La posterior sería

\[\begin{equation*} \theta|X \sim \Gamma\left(1+3,2+\sum_{i=1}^3 X_i\right). \end{equation*}\]

El estimador bayesiano, bajo pérdida cuadrática, es

\[\begin{equation*} \mathbb E[\theta|X] = \dfrac 4{2+\sum X_i} = \hat\theta \end{equation*}\]

Note que

\[\begin{align*} \mathbb P(|\hat\theta-\theta|<0.1) & = \mathbb E \left[1_{\{|\hat\theta-\theta|<0.1\}}\right] \\ & = \mathbb E\left[\mathbb E \left[1_{\{|\hat\theta-\theta|<0.1\}}\vert \theta\right]\right] \\ & = \mathbb E\left[\mathbb P\left(|\hat\theta-\theta|<0.1|\theta\right)\right] \end{align*}\]

Debemos definir primero cuál es la función de distribución de \(\hat{\theta}\).

\[\begin{align*} F_{\hat{\theta}}(t|\theta) = \mathbb P(\hat\theta\leq t|\theta) & = \mathbb P\left( \dfrac 4{2+T}\leq t\bigg|\theta\right) \\ & = \mathbb P\left( 2+T \geq \dfrac 4t\bigg|\theta\right) \\ & = \mathbb P\left( T \geq \dfrac 4t-2\bigg|\theta\right) \end{align*}\]

Observación. Recuerde que sumas de exponenciales es una gamma. (Ver teorema 5.7.7 del libro).

Entonces \(T=\sum_{i=1}^{3}X_{i}\sim \Gamma(3,\theta)\), por lo que \(F(t|\theta) = 1-G_{\Gamma(3,0)}\left( \dfrac 4t-2\right)\). Aqui denotamos como \(G\) a la distribución de \(T\).

De esta manera,

\[\begin{align*} \mathbb P\left[|\hat\theta-\theta|<0.1|\theta\right] & = \mathbb P \left[-0.1+\theta < \hat\theta < 0.1 +\theta|\theta\right] \\ & = G_{\Gamma(3,\theta)}\left(\dfrac 4{-0.1+\theta} - 2\right)-G_{\Gamma(3,\theta)}\left(\dfrac 4{0.1+\theta} - 2\right) \end{align*}\]

y se toma la esperanza para estimar la probabilidad. Este valor no se puede estimar de forma cerrada, sino que se podría aproximar mediante una simulación

Aproximación Gamma

8.1.1.1 Enfoque frequentista

Otra solución es estimar la probabilidad de que \(\theta\) y \(\hat{\theta}\) estén cerca de forma relativa. Usando el MLE \(\hat{\theta} = \frac{3}{T}\), se podría construir esa probabilidad de forma que no dependa de \(\theta\).

El problema a resolver sería:

\[ \mathbb P \left(\bigg| \underbrace{\dfrac{\hat\theta_{MLE}}\theta-1}_{\text{Cambio relativo}} \bigg| < 0.1\bigg|\theta \right) = \mathbb P \left( \bigg| \dfrac{3}{\theta T}-1 \bigg| < 0.1 \bigg| \theta \right) = \Delta \]

Si \[\begin{equation*} T\sim\Gamma(3,\theta) \end{equation*}\] entonces \(\theta T \sim \Gamma(3,1)\).

Por lo tanto, \[ \Delta = \mathbb P \left(0.9<\dfrac 3{\theta T}<1.1\bigg|\theta\right) = \mathbb P \left(\dfrac 3{1.1}<\theta T<\dfrac 3{0.9}\right) = 13,4\% \]

8.2 Distribución \(\chi^2\)

La distribución chi-cuadrado o \(\chi^2\)-cuadrado es una distribución especial de la familia gamma. Se define como:

Definición 8.1 Para \(m>0\) definimos \[ \chi^2_m \sim \Gamma\left(\dfrac m2, \dfrac 12 \right) \]

donde \(m\) representa los grados de libertad.

En realidad esta distribución es una distribución gamma con parámetros \(\alpha = \dfrac m2\) y \(\beta = \dfrac 12\) (con parámetro de forma).

El siguiente gráfico muestra la distribución \(\chi^2\) para diferentes valores de \(m\).

# Generar datos
x <- seq(0, 30, length.out = 1000)
df_values <- c(5, 10, 15) # Grados de libertad a ilustrar
densities <- lapply(df_values, function(df) {
  dchisq(x, df)
})

# Convertir a data.frame para ggplot
df <- data.frame(
  x = rep(x, length(df_values)),
  density = unlist(densities),
  df = factor(rep(df_values, each = length(x)))
)

# Crear el gráfico
ggplot(df, aes(x = x, y = density, color = df)) +
  geom_line(linewidth = 2) +
  labs(
    title = "Distribución Chi-cuadrado",
    x = "Valor",
    y = "Densidad",
    color = "Grados de libertad"
  ) +
  cowplot::theme_cowplot() +
  scale_color_brewer(palette = "Dark2")

Estas distribuciones tiene propiedades interesantes que se enuncian a continuación.

Propiedades
  • \(\mathbb E[X] = m\).
  • \(\text{Var} (X) = 2m\).
  • Para \(X_i \sim \chi^2_{m_i}\), \(i = 1,\dots, k\), independientes, entonces \[\sum_{i=1}^k X_i \sim \chi^2_{\sum m_i}\]
  • Si \(X\sim N(0,1) \implies Y = X^2\sim \chi^2_1\).
  • Si \(X_i \stackrel{i.i.d}{\sim} N(0,1) \implies \sum_{i=1}^m X_i^2 = \chi^2_m\).

Ejemplo 8.3 Consideremos una muestra \(X_1,\dots,X_n\) de una distribución normal \(N(\mu,\sigma^2)\). Si transformamos cada observación como \(Z = \dfrac{X_i-\mu}{\sigma}\), cada \(Z\) sigue una distribución \(N(0,1)\).

Por lo tanto, la suma de los cuadrados de estas transformaciones sigue una distribución chi-cuadrado con nn grados de libertad:

\[\begin{equation*} \sum_{i=1}^n \dfrac{(X_i-\mu)^2}{\sigma^2} = \dfrac 1{\sigma^2}\sum_{i=1}^n (X_i-\mu)^2 \sim \chi^2_n. \end{equation*}\]

Si \(\mu\) es conocido y \(\sigma^2\) desconocido, el estimador de máxima verosimilitud (MLE) de \(\sigma^2\) es

\[\begin{equation*} \hat\sigma^2 = \dfrac 1n \sum_{i=1}^n (X_i-\mu)^2. \end{equation*}\]

De esta manera, podemos reescribir la suma de los cuadrados de las desviaciones como una variable chi-cuadrado:

\[\begin{align*} \frac{n\hat\sigma^2}{\sigma^2} & = \frac {n}{\sigma^2}\frac{1}{n}\sum_{i=1}^n (X_i-\mu)^2 \\ & = \sum_{i=1}^n (X_i-\mu)^2 \sim \chi^2_n. \end{align*}\]

En el ejercicio anterior el \(\mu\) es conocido. Si suponemos que \(\mu\) es desconocido. Entonces, ¿Cuál es la distribución muestral de \((\bar X_n,\hat\sigma^2)\)? EL siguiente cuadro resume sus propiedades.

Más propiedades de las distribuciones \(\chi^2\)

Bajo las condiciones anteriores,

  1. \(\bar X_n\) y \(\hat \sigma_n\) son independientes aunque \(\hat \sigma_n\) es función de \(\bar X_n\).

  2. La distribución muestral de \(\bar X_n\) es \(N\left(\mu,\dfrac{\sigma^2}{n}\right)\).

  3. Si \(\hat{\sigma}_0 = \frac{1}{n} \sum_{i=1}^{n}(X_{i} -\mu)^2\), entonces \[\begin{equation*} n\dfrac{\hat \sigma_{0}^2}{\sigma^2} =\sum_{i=1}^n \frac{{(X_i-\mu)}^2}{\sigma^2} \sim \chi^2_{n-1} \end{equation*}\].

La primera propiedad solo ocurre con distribuciones normales. La prueba no es díficil y es interesante entenderla.

Proposición 8.1 Una matriz \(A_{n\times n}\) es ortogonal si cumple que \(A^{-1} = A\) y \(\det(A) = 1\). Además si \(X, Y\in \mathbb R ^{n}\), y definimos \(AX =Y\) con \(A\) ortogonal, entonces \[ \|Y\|_2^2 = \|X\|_2^2. \]

Teorema 8.1 Si \(X_1,\dots,X_n \sim N(0,1)\), \(A\) es ortogonal \(n\times n\) y \(Y=AX\) donde \(X = (X_1,\dots,X_n)^T\) entonces \(Y_1,\dots,Y_n \sim N(0,1)\).

Si \(X_1,\dots,X_n \sim N(0,1)\), use Gram-Schmidt con vector inicial

\[\begin{equation*} u = \left[ \frac{1}{\sqrt{n}}, \cdots, \frac{1}{\sqrt{n}}\right] \end{equation*}\]

Generamos \(A = \begin{bmatrix}u\\\vdots\end{bmatrix}\). Defina \(Y =AX\). Entonces \[ Y_1 = uX = \dfrac 1{\sqrt{n}}\sum_{i=1}^n X_i = \sqrt{n} \bar X_n.\]

Por la propiedad Proposición 8.1, \(\displaystyle\sum_{i=1}^n Y_i^2 = \displaystyle\sum_{i=1}^n X_i^2\).

Entonces, \[ \sum_{i=2}^nY_i^2 = \sum_{i=1}^nY_i^2 - Y_1^2 = \sum_{i=1}^nX_i^2-n\bar X_n^2=\sum_{i=1}^n(X_i-\bar X_n)^2. \]

Como \(Y_1^2\) y \(\sum_{i=2}^nY_i^2\) son independientes, entonces \(\bar X_n\) y \(\dfrac{1}n \sum_{i=1}^n(X_i-\bar X_n)^2\) son independientes.

Note que \(\sum_{i=2}^n Y_i^2 \sim \chi^2_{n-1}\) ya que \(Y_i \stackrel{i.i.d}{\sim} N(0,1)\).

Si \(X_1,\dots,X_n \sim N(\mu, \sigma^2)\), tome \(Z_i = \dfrac{X_i-\mu}\sigma\) y repita todo lo anterior.

Ejemplo 8.4 Sea \(X_1,\dots,X_n\sim N(\mu,\sigma^2)\) (\(\mu,\sigma\) desconocidos). Los MLE son

\[\hat \mu = \bar X_n,\quad \hat\sigma = \bigg[\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar X_n)^2 \bigg]^{\frac 12}.\]

Encuentre \(n\) tal que

\[\begin{equation*} p = \mathbb P \bigg[|\hat\mu-\mu|<\dfrac {\sigma}{5}, |\hat\sigma-\sigma|<\dfrac \sigma 5\bigg] \geq \dfrac 12. \end{equation*}\]

Por independencia de \(\bar X_n\) y \(\hat\sigma^2_n\), \[p= \mathbb P \bigg[|\hat\mu-\mu|<\dfrac \sigma5\bigg] \mathbb P \bigg[|\hat\sigma-\sigma|<\dfrac \sigma5\bigg]\]

Por un lado, \[\mathbb P \bigg[|\hat\mu-\mu|<\dfrac \sigma5\bigg] = \mathbb P \bigg[-\dfrac{\sqrt n}5\leq \underbrace{\dfrac{\sqrt{n}(\hat\mu-\mu)}\sigma}_{N(0,1)} <\dfrac {\sqrt n}{5}\bigg] = \Phi\left(\dfrac{\sqrt n}{5}\right)-\Phi\left(-\dfrac{\sqrt n}{5}\right).\]

Además,

\[\begin{align*} \mathbb P \bigg[|\hat\sigma-\sigma|<\dfrac \sigma5\bigg] = & \mathbb P \bigg[-\dfrac \sigma 5 < \hat\sigma-\sigma<\dfrac \sigma5\bigg] \\ = & \mathbb P \bigg[-\dfrac{\sigma}{5} +\sigma < \hat\sigma<\dfrac \sigma5 +\sigma\bigg] \\ = & \mathbb P \bigg[-\dfrac 45 \sigma < \hat\sigma<\dfrac 65\sigma\bigg] \\ = & \mathbb P \bigg[-\dfrac 45 < \dfrac{\hat\sigma}{\sigma}<\dfrac 65\bigg] \\ = & \mathbb P \bigg[\left(-\dfrac 45\right)^2 < \dfrac{\hat{\sigma}^2}{\sigma^2}<\left(\dfrac 65\right)^2\bigg] \\ = & \mathbb P \bigg[0.64n < \dfrac{\hat{n\sigma}^2}{\sigma^2} <1.44n\bigg] \\ = & F_{\chi^2_{n-1}}(1.44n)-F_{\chi^2_{n-1}}(0.64n). \end{align*}\]

Estime \(n\) de manera que

\[\begin{equation*} \left[1-2\Phi\left(-\dfrac{\sqrt n}{5}\right)g\right] \left[F_{\chi^2_{n-1}}(1.44n)-F_{\chi^2_{n-1}}(0.64n)\right] \geq \dfrac 12. \end{equation*}\]

Se resuelve numéricamente, y si \(n=21\) se cumple.

n <- 1:30
probabilidad <- (1 - 2 * pnorm(-sqrt(n) / 5)) *
  (pchisq((6 / 5)^2 * n, df = n - 1) - pchisq((4 / 5)^2 * n, df = n - 1))


ggplot(
  data = data.frame(n, probabilidad),
  aes(n, probabilidad), linewidth = 2
) +
  geom_line(, linewidth = 2) +
  geom_hline(
    yintercept = 1 / 2,
    linetype = "dashed", color = "red", linewidth = 2
  ) +
  geom_vline(
    xintercept = 21,
    linetype = "dashed", color = "red", linewidth = 2
  ) +
  cowplot::theme_cowplot()

8.3 Distribución \(t\)

Otra familia de distribuciones importantes son las distribuciones \(t\) de Student. Estas distribuciones son una generalización de la distribución normal. Tanto la distribución \(\chi^2\) como la distribución \(t\) son serán usadas extensivamente a través de este lo que resta de este libro.

Definición 8.2 Considere \(Y\) y \(Z\) dos variables independientes tal que \(Y\sim \chi^2_m\) y \(Z\sim N(0,1)\). Defina la variable aleatoria \(X\) como \[\begin{equation*} X = \dfrac Z{\sqrt{\dfrac Ym}}. \end{equation*}\]

Entonces la distribución de \(X\) se llama distribución \(t\) de Student con \(m\) grados de libertad. Se denota como \(X\sim t_m\). Esta distribución tiene como densidad

\[\begin{equation*} f_X(x) = \dfrac{\Gamma\left(\dfrac{m+1}2\right)}{\sqrt{m\pi}\Gamma\left(\dfrac m2 \right)}\left(1+\dfrac{x^2}m\right)^{-\frac{m+1}2}, \quad x\in \mathbb R. \end{equation*}\]

Unas propiedades importantes de esta distribución se enuncian a continuación.

Propiedades
  1. La distribución \(t\) de Student es simétrica.
  2. La media de \(X\) no existe si \(m\leq 1\). Si la media existe, es 0.
  3. Las colas de una \(t\) de Student son más pesadas que una \(N(0,1)\). Esto quiere decir que la probabilidad de que una variable aleatoria \(X\) tome valores muy grandes o muy pequeños es mayor que la probabilidad de que una variable aleatoria \(Y\) tome valores muy grandes o muy pequeños, si \(X\sim t_m\) y \(Y\sim N(0,1)\).
  4. Si \(m\) es entero, los primeros \(m-1\) momentos de \(X\) existen y no hay momentos de orden superior.
  5. Si \(m>2\), entonces \(\text{Var}\left(X \right)=\dfrac m{m-2}\).
  6. Si \(m=1\), \(X\sim \text{Cauchy}\).
  7. Ejercicio: Pruebe que \(f_x(x)\xrightarrow[m\to \infty]{}\Phi(x)\). Es decir, la distribución \(t\) de Student converge a la distribución normal estándar cuando \(m\) es grande (la distribución \(t\)-student sirve como aproximación de la normal). La discrepancia de ambas está en la cola y se disipa cuando \(m\) es grande.

Una propiedad importante es que nos va a permitir aproximar estadísticos cuando \(\mu\) y \(\sigma\) son desconocidos.

Note primero que de la sección anterior, sabemos que si \(X_1,\dots,X_n \sim N(\mu,\sigma^2)\), entonces \(\bar X_n \sim N\left(\mu,\dfrac{\sigma^2}{n}\right)\) y \(\dfrac{n\hat\sigma^2}{\sigma^2}\sim \chi^2_{n-1}\) son independientes. Ademas definamos la varianza muestral como:

\[\begin{equation*} s^2_n = \dfrac 1{n-1}\sum_{i=1}^n(X_i-\bar X_n)^2. \end{equation*}\]

Entonces \[\begin{equation*} \dfrac{\sqrt{n}(\bar X_n-\mu)}{\sigma'} \sim t_{n-1} \end{equation*}\]

Para entender el resultado anterior, primero defina las siguientes cantidades

\[\begin{align*} S_n^2 & =\sum_{i=1}^n(X_i-\bar X_n)^2, \\ Z_n & = \sqrt n \dfrac{\bar X_n-\mu}{\sigma}. \end{align*}\]

Ahora según lo que vimos en la sección anterior, si \(Y_n = \dfrac{n\hat{\sigma}^2}{\sigma^2}= \dfrac{S_n^2}{\sigma^2}\sim \chi^2_{n-1}\), entonces

\[\begin{align*} T = \dfrac{Z_n}{\sqrt{\dfrac Y{n-1}}} & = \dfrac{\dfrac{\sqrt n}\sigma (\bar X_n-\mu)}{\sqrt{\dfrac{\dfrac{S_n^2}{\sigma^2}}{n-1}}} \\ & = \dfrac{\sqrt n (\bar X_n-\mu)}{\sqrt{\dfrac{S_n^2}{n-1}}} \\ & = \dfrac{\sqrt n (\bar X_n-\mu)}{s_n} \sim t_{n-1}. \end{align*}\]

Observación. Si \(n\) es grande, entonces \(s_n^2 \approxeq \hat{\sigma}^2\) ya que \(s_n^2 = \left(\dfrac n{n-1}\right) \hat{\sigma}^2\).

Ejemplo 8.5  

# Crear un conjunto de datos con valores de las tres distribuciones
set.seed(123)
n <- 1000 # Tamaño de la muestra
df <- data.frame(
  t_student = rt(n, df = 5), # Distribución t con 5 grados de libertad
  cauchy = rcauchy(n),
  normal = rnorm(n)
)

# Crear un gráfico de densidad para las tres distribuciones

ggplot(data.frame(x = seq(-5, 5, length.out = 100)), aes(x)) +
  geom_function(
    fun = dt,
    args = list(df = 5),
    aes(color = "t_5"),
    linewidth = 1.5
  ) +
  geom_function(
    fun = dcauchy,
    aes(color = "Cauchy"),
    linewidth = 1.5
  ) +
  geom_function(
    fun = dnorm,
    aes(color = "Normal(0,1)"),
    linewidth = 1.5
  ) +
  labs(
    title = "Comparación de Distribuciones: t Student, Cauchy y Normal",
    x = "Valor",
    y = "Densidad"
  ) +
  cowplot::theme_cowplot()

Note este ejemplo con variables distribuciones t y normal.

ggplot(data = data.frame(x = seq(-5, 5, length.out = 1000)), aes(x)) +
  stat_function(
    fun = dnorm, args = list(mean = 0, sd = 1),
    aes(color = "Normal(0,1)"),
    linewidth = 1.5
  ) +
  stat_function(
    fun = dt,
    args = list(df = 1), aes(color="t_1"),  
    linewidth = 1.5
  ) +
  stat_function(
    fun = dt,
    args = list(df = 5), aes(color = "t_5"),
    linewidth = 1.5
  ) +
  stat_function(
    fun = dt,
    args = list(df = 10), aes(color = "t_10"),
    linewidth = 1.5
  ) +
  ylab("") +
  scale_color_discrete(labels = c("Normal(0,1)", "t_1", "t_5", "t_10")) +
  labs(color = "Distribución") +
  cowplot::theme_cowplot()