6  Estadísticos suficientes y criterio de factorización

6.1 Estadísticos suficientes

NotaAl terminar este capítulo, el estudiante será capaz de:
  1. Reconocer cuándo un estadístico es suficiente usando la definición formal.
  2. Aplicar el criterio de factorización de Fisher para identificar estadísticos suficientes en distribuciones comunes.
  3. Construir estadísticos suficientes conjuntos cuando el modelo tiene más de un parámetro desconocido.
  4. Explicar qué significa que un estadístico sea minimal y por qué el MLE es siempre minimal.
  5. Mejorar estimadores no suficientes usando el teorema de Rao-Blackwell.

Suponga que quiere estimar la tasa promedio de llegada de clientes a una tienda, y para ello registra 100 horas de observación. ¿Necesita guardar los 100 conteos individuales, o basta con su suma? La idea de estadístico suficiente formaliza exactamente esto: un resumen de los datos que no descarta ninguna información relevante sobre el parámetro de interés.

Este concepto tiene consecuencias prácticas inmediatas. En capítulos anteriores se estudiaron estimadores como el MLE, el método de momentos y los estimadores bayesianos. Aquí aprenderemos por qué todos esos estimadores terminan dependiendo de los datos solo a través de un estadístico suficiente — y cómo usar esa estructura para mejorar estimadores de forma sistemática mediante el teorema de Rao-Blackwell. En el capítulo siguiente veremos el concepto de completitud, que —combinado con suficiencia— permite identificar el UMVUE: el mejor estimador insesgado posible.

Para entenderlo de manera más formal: consideremos una muestra y un parámetro \(\theta\). Un estadístico \(T=r(X_1, \dots, X_n)\) es suficiente para \(\theta\) si la distribución condicional de la muestra, dado el valor de \(T\), no depende de \(\theta\). Esto significa que, independientemente del valor real de \(\theta\), la distribución de la muestra no cambiará una vez que se conozca \(T\).

Definición 6.1 Sea \(X_1,\dots,X_n\) una muestra indexada por \(\theta\). Un estadístico \(T\) es suficiente si, para cada \(\theta \in \Omega\) y para cada \(t\) en la imagen de \(T\), la distribución condicional de \(X_1,\dots,X_n|T=t\) no depende de \(\theta\).

TipIdea clave

Un estadístico suficiente \(T\) contiene toda la información de la muestra sobre \(\theta\): una vez conocido \(T\), el resto de los datos no aporta nada adicional para estimar \(\theta\).

6.2 Teorema de factorización de Fisher

El teorema de factorización proporciona una caracterización de los estadísticos suficientes a través de la factorización de la función de verosimilitud.

Teorema 6.1 (Factorización de Fisher) Si \(X_1,\dots,X_n\) es una muestra aleatoria de \(f(x|\theta)\), el parámetro \(\theta\) es desconocido. Un estadístico \(T=r(X_1,\dots,X_n)\) es suficiente si y solo si \[\begin{equation*} f_n(X|\theta) = u(X)v(r(X),\theta)\;\forall x\in \mathbb{R}, \; \forall \theta \in \mathbb{R}. \end{equation*}\]

Se presenta una prueba con distribuciones discretas. El caso con distribuciones continuas es similar.

Primero recuerde que \(f_n(x|\theta) = \mathbb{P}(X=x|\theta)\). Probaremos las dos implicaciones como sigue:

\(\Leftarrow\)”: Sea \(A(t) = \{x\in \mathbb{R}| r(x) =t\}\). Para \(\theta \in \mathbb{R}\), \(x\in A(t)\),

\[\begin{align*} \mathbb{P}(X=x|T=t) & = \dfrac{\mathbb{P}(X=x \cap T=t)}{\mathbb{P} (T=t)} \\ & = \dfrac{f_n(x|\theta, T=t)}{\displaystyle\sum_{y \in A(t)}f_n(y|\theta)} \\ & = \dfrac{u(x)v(r(x),\theta)}{\displaystyle\sum_{y \in A(t)} u(y)v(r(y),\theta)} \\ & = \dfrac{u(x)v(t,\theta)}{\displaystyle v(t,\theta)\sum_{y \in A(t)} u(y)} \text{(Como $y\in A(t)$ entonces $r(y) = t$ que es constante.)} \\ & = \dfrac{u(x)}{\displaystyle\sum_{y \in A(t)}u(y)} \end{align*}\]

no depende de \(\theta\).

Si \(x\notin A(t) \implies \mathbb{P}(X=x|T=t) = 0\) no depende de \(\theta\).

\(\Rightarrow\)”: Si \(T\) es un estadístico suficiente, \(u(x) = \mathbb{P}(X=x|T=t)\) no depende de \(\theta\). Sea \(v(t,\theta) = \mathbb{P}_{\theta}(T=t)\). Entonces

\[ f_n(x|\theta) = \mathbb{P} (X=x|\theta) = \dfrac{\mathbb{P}(X=x|\theta)}{\mathbb{P}(T=t)}\mathbb{P}(T=t) = u(x)v(t,\theta). \]

Observación. En el caso bayesiano tenemos que si \(f_n(x|\theta) \propto v(r(x),\theta)\) (\(u(x)\) es una constante con respecto a \(\theta\)), se obtiene que: \[ \pi(\theta|x) \propto \pi(\theta)v(r(x),\theta). \]

Por lo tanto, un estadístico \(r(x)\) es suficiente si y solo si no importa cuál previa de \(\theta\) se use, la posterior depende solamente de \(r(x)\) a través de los datos.

6.2.1 Ejemplo: Distribución de Poisson

Ejemplo 6.1 Sean \(X_1,\dots, X_n \sim \text{Poisson}(\lambda)\),

\[\begin{align*} f_n(X|\theta) & = \prod_{i=1}^n \dfrac{e^{-\lambda}}{X_i!} \\ & = \dfrac{e^{-\lambda n} \lambda ^{\overbrace{\sum_{i=1}^{n} X_i}^{r(X)}}}{\prod X_i!} \\ & = \underbrace{\dfrac{1}{\prod_{i=1}^n X_i!}}_{u(x)} \underbrace{e^{-\lambda n}\lambda^{r(X)}}_{v(r(X),\lambda)} \end{align*}\]

Si \(X_i < 0\) para al menos un \(i\), entonces \(f_n(X|\theta) = 0\). Tome \(u(X) = 0\).

Por el teorema de factorización, \(r(X) = \sum_{i=1}^{n} X_i\) es un estadístico suficiente para \(\lambda\).

6.2.2 Ejemplo: Distribución potencia \(\theta x^{\theta-1}\)

Ejemplo 6.2 Sea \(X_1,\dots, X_n \sim f(x|\theta)\) donde \[ f(x|\theta) = \begin{cases}\theta x^{\theta-1} & 0<x< 1\\ 0 & \text{otro caso}\end{cases} \]

Si \(0<X_i<1\) para todo \(i\), entonces la verosimilitud se escribe como,

\[\begin{align*} f_n(X|\theta) & = \theta^n\bigg[\underbrace{\prod(X_i)}_{r(X)}\bigg]^{\theta-1} \\ & = \underbrace{\theta^n(r(X))^{\theta-1}}_{v(r(X),\theta)}\cdot \underbrace{1}_{u(x)} \end{align*}\]

Por el teorema de factorización \(r(X) = \prod_{i=1}^{n} X_i\) es un estadístico suficiente para \(\theta\).

6.2.3 Ejemplo: Distribución Normal

Ejemplo 6.3 Sea \(X_1,\dots, X_n \sim N(\mu, \sigma^2)\).

\[\begin{align*} f_n(X|\theta) & = (2\pi\sigma^2)^{-n/2} \exp\bigg[-\dfrac{1}{2\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\bigg] \\ & = (2\pi\sigma^2)^{-n/2} \exp\bigg[-\dfrac{1}{2\sigma^2}\underbrace{\sum_{i=1}^n X_i^2}_{r_2(X)}+ \dfrac{\mu}{\sigma^2}\underbrace{\sum_{i=1}^n X_i}_{r_1(X)} - \dfrac{\mu^2 n}{2\sigma^2} \bigg] \end{align*}\]

6.2.3.1 Caso 1: \(\sigma^2\) conocido

  • Considere el caso \(\sigma^2\) conocido. Tome \[\begin{align*} u(X) & = (2\pi\sigma^2)^{-n/2}\exp\bigg[-\dfrac{1}{2\sigma^2} \displaystyle\sum_{i=1}^n X_i^2\bigg], \\ v(r_{1}(X),\mu) & = \exp\bigg[\dfrac{\mu}{\sigma^2}r_{1}(X) - \dfrac{n\mu^2}{2\sigma^2}\bigg]. \end{align*}\]Por teorema de factorización, \(r_{1}(X)=\sum_{i=1}^{n} X_i\) es un estadístico suficiente para \(\mu\).

6.2.3.2 Caso 2: \(\sigma^2\) desconocido

  • Con \(\sigma^2\) desconocido, entonces los parámetros son \(\theta = (\mu,\sigma^2)\). Tome \(u(X) = 1\), \[ v(r_1(X),r_2(X),\theta) = (2\pi\sigma^2)^{-n/2}\exp\bigg[\dfrac{-r_2(X)}{2\sigma^2} + \dfrac{\mu r_1(X)}{\sigma^2}- \dfrac{n\mu^2}{2\sigma^2}\bigg] \] Entonces \[ (r_1(X),r_2(X)) = \left(\sum_{i=1}^{n}{X_i},\sum_{i=1}^{n} x_i ^2\right) \] es un estadístico suficiente para \((\mu, \sigma^2)\).

6.2.4 Ejemplo: Distribución Uniforme \(\text{Unif}(0,\theta)\)

Ejemplo 6.4 Sea \(X_1,\dots, X_n \stackrel{i.i.d}{\sim}\text{Unif}(0,\theta)\), \(\theta>0\), donde \(f(x|\theta) = \frac{1}{\theta} 1_{[0,\theta]}(x)\). Entonces la verosimilitud es,

\[ f_n(X|\theta) = \prod_{i=1}^n \left(\dfrac 1\theta \right) 1_{[0,\theta]}(X_i) \]

Tenemos varios casos a considerar:

  • Si al menos uno de los \(X_i<0\) o \(X_i>\theta\), tome \(u(X) = 0\) y por lo tanto \(f(X|\theta) = 0\).

  • Si \(0<X_i<\theta\) para todo \(i\), entonces \[\begin{equation*} f_n(X|\theta) = \left(\dfrac 1\theta \right)^{n} 1_{[0,\theta]}(X_{(n)}). \end{equation*}\]Donde \(X_{(n)} = \max\{X_1, \dots, X_n\}\). Ahora si \(T = r(X) = X_{(n)}\) entonces \(f_n(X|\theta) = u(X)v(r(X),\theta)\), \(u(X) = 1\). Por teorema de factorización, \(r(X) = X_{(n)}\) es un estadístico suficiente para \(\theta\).

TipIdeas clave — Factorización de Fisher
  • Para verificar que \(T\) es suficiente, factoriza \(f_n(X|\theta) = u(X)\,v(T,\theta)\): si puedes separar la parte que depende de \(\theta\) en una función que solo involucra \(T\), entonces \(T\) es suficiente.
  • \(u(X)\) puede ser cualquier función que no dependa de \(\theta\); incluso puede valer 0 para valores imposibles de \(X\).
  • En distribuciones de la familia exponencial, el estadístico suficiente siempre tiene la forma de una suma \(\sum g(X_i)\) o un producto \(\prod g(X_i)\).

6.3 Estadístico suficiente multivariado

En todos los ejemplos anteriores el parámetro \(\theta\) era un escalar. ¿Qué ocurre cuando el modelo tiene dos o más parámetros desconocidos, como la Normal con media y varianza ambas desconocidas? Un solo número no puede capturar toda la información sobre dos parámetros: necesitamos un vector de estadísticos suficientes.

El concepto de suficiencia se puede extender a múltiples parámetros. En este caso si \(\theta \in \mathbb{R}^{k}\) con \(k \geq 1\), se necesita al menos \(k\) estadísticos \(T_{1}, \dots, T_{k}\) para cada \(i = 1, \dots, k\), de modo que \(T_{i} = r_{i}(X_{1}, \dots, X_{n})\).

Definición 6.2 Un conjunto de estadísticos \((T_1,\dots,T_k)\) es suficiente para el parámetro \(\theta\in\mathbb{R}^{k}\) si, para cada \(\theta\) y para cada conjunto de valores \((t_1,\dots,t_k)\) en \(\mathbb{R}^k\), la distribución condicional de la muestra \(X_1,\dots,X_n\) dado que \((T_1,\dots,T_k)=(t_1,\dots,t_k)\) no depende de \(\theta\).

Teorema 6.2 (Criterio de factorización multivariado) Bajo las condiciones anteriores, entonces \(f_n(x|\theta) = u(x)v(r_1(x),\dots,r_k(x),\theta)\) si y solo si \(T = (r_1(x),\dots,r_k(x))\) es suficiente.

Corolario 6.1 Si \((T_1,\dots,T_k)\) es suficiente para \(\theta\) y si \((T_1',\dots,T_k') = g(T_1,\dots,T_k)\) donde \(g\) es biyectiva, entonces \((T_1',\dots,T_k')\) es suficiente para \(\theta\).

Ejemplo 6.5 Consideremos una muestra \(X_1,\dots,X_n\) de una distribución normal \(N(\mu,\sigma^2)\). En ejemplos previos, determinamos que los siguientes estadísticos son suficientes para \(\mu\) y \(\sigma^2\):

\[\begin{align*} T_1 & = \sum_{i=1}^{n} X_i \\ T_2 & = \sum_{i=1}^{n} X_i^2 \\ \end{align*}\]

Si consideramos ahora el caso con ambos parámetros \((\mu, \sigma^2)\) desconocidos, encontramos que la verosimilitud puede factorizarse en términos de \(T_1\) y \(T_2\). Por lo tanto, \((T_1,T_2)\) son conjuntamente suficientes para \((\mu,\sigma^2)\).

Considerando otro conjunto de estadísticos: \[\begin{align*} T_1^{\prime} & = \frac{1}{n} \sum_{i=1}^{n} X_i \\ T_2^{\prime} & = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X}_n) ^{2} \end{align*}\]

Entonces defina la siguiente función \[ (T_1',T_2') = g(T_1,T_2) = \left(\dfrac{1}{n}T_1,\dfrac{1}{n}T_2 - \dfrac{1}{n^2}T_1^2\right). \]

De la primera entrada, \[\begin{align*} T_1^{\prime} = \dfrac 1n T_1 \\ \end{align*}\] De la segunda, \[\begin{align*} \frac{1}{n} T_2 - \frac{1}{n^2}T_1^2 & = \dfrac 1n \sum X_i^2 - \left(\dfrac 1n \sum X_i\right)^2 \\ & = \dfrac{1}{n}\sum \left(X_i^2 - 2X_i\overline{X}_n + \overline{X}_n^2\right) \\ & = \dfrac{1}{n}\sum X_i^2 - 2\overline{X}_n^2 + \overline{X}_n^2 \\ & = \dfrac 1n \sum(X_i-\overline{X}_n)^2 = T_2^{\prime} \end{align*}\]

Es decir, tenemos las relaciones

\[\begin{align*} T_1 & = n\ T_1^{\prime} \\ T_2 & = n\left(T_2^{\prime} + {T_1^{\prime}}^2\right) \end{align*}\]

Entonces, note como se puede expresar \((T_{1}, T_{2})\) en términos de \((T_1^{\prime}, T_2^{\prime})\) y viceversa. Por lo tanto \(g\) es biyectiva.

Finalmente \((T_1^{\prime}, T_2^{\prime})\) son estadísticos suficiente conjuntos para \((\mu,\sigma^2)\).

Ejemplo 6.6 Considere una muestra \(X_1,\dots,X_n\) de una distribución uniforme \(Unif(a,b)\) con \(a<b\). Queremos determinar un estadístico suficiente para \(a\) y \(b\) conjuntamente.

  1. Si algún \(X_i < a\) o \(X_i>b\), tome \(u(x) = 0\).
  2. Si \(a\leq X_i \leq b\) para todo \(i\),
  1. Si \(X_i \geq a\) para todo \(i\) entonces \(X_{(1)}>a\).

  2. \(X_i \leq b\) para todo \(i\) entonces \(X_{(n)}<b\).

La verosimilitud es de la forma

\[\begin{align*} f_n(x|(a,b)) & = \prod_{i=1}^n\frac{1}{(b-a)}1_{[a,b]}(x_i) \\ & = \underbrace{\frac{1}{(b-a)^n} 1_{\{(z,w): z>a, w<b\}}(X_{(1)},X_{(n)})}_{v(r_1(x),r_2(x),(a,b))}\cdot \underbrace{1}_{u(x)} \end{align*}\]

Por teorema de factorización \((r_{1}(x), r_{2}(x)) = (X_{(1)},X_{(n)})\) es un estadístico suficiente para \((a,b)\).

TipIdeas clave — Suficiencia multivariada
  • Si el modelo tiene \(k\) parámetros desconocidos, se necesita un vector \((T_1,\dots,T_k)\) de estadísticos suficientes conjuntos.
  • Si \((T_1,\dots,T_k)\) es suficiente y \(g\) es biyectiva, entonces \(g(T_1,\dots,T_k)\) también es suficiente: la suficiencia se preserva bajo transformaciones invertibles.
  • Para la Normal con ambos parámetros desconocidos, \((\bar X_n, S_n^2)\) y \((\sum X_i, \sum X_i^2)\) son igualmente válidos como par de estadísticos suficientes.

6.4 Estadísticos minimales

En inferencia estadística, el objetivo principal es resumir la información contenida en una muestra. Mientras que un estadístico suficiente encapsula toda la información necesaria sobre un parámetro, un estadístico minimal proporciona la representación más simple y reducida de esa información.

¿Qué significa realmente “minimal”?

TipIdea

Recordemos que el espacio muestral \(\mathcal X\) es el conjunto de todos los posibles resultados de un experimento aleatorio. Supongamos que podemos organizarla en “paquetes” de información. Un estadístico minimal es aquel que contiene la menor cantidad de “paquetes” posible sobre el o los parámetros de interés.

Espacio muestral \(\mathcal X\) particionado.

Comencemos entiendo la peor forma de empaquetar nuestra información.

Definición 6.3 (Estadístico de orden) Sean \(X_1,\dots, X_n \stackrel{i.i.d}{\sim} f\). Se denominan los estadísticos de orden a las variables aleatorias ordenadas de la forma

\[ (Y_1,\dots,Y_n) = (X_{(1)},\dots,X_{(n)}) \text { tal que } Y_1<\dots<Y_n. \]

Teorema 6.3 Para una muestra aleatoria \(X_1,\dots,X_n\) con densidad \(f(x\vert\theta)\), el conjunto \((X_{(1)},\dots,X_{(n)})\) es un estadístico conjuntamente suficiente para \(\theta\).

Ejemplo 6.7 Consideremos una muestra \(X_1, \dots X_n\) de una distribución Cauchy con parámetro de localización \(\alpha\). La función de densidad es

\[ f(x) = \dfrac1\pi(1+(x-\alpha)^2)^{-1}, x\in\mathbb{R} \]

Para encontrar un estimador suficiente para \(\alpha \in \mathbb{R}\), calculamos lo siguiente:

\[\begin{align*} f_n(X|\alpha) & = \prod_{i=1}^{n} f(X_i|\alpha) \\ & = \prod_{i=1}^{n}\dfrac{1}{\pi}\left(1+(X_i-\alpha)^2\right)^{-1} \\ & =\frac{1}{\pi^n}\prod_{i=1}^n(1+(X_i-\alpha)^2)^{-1} \\ & = \underbrace{\dfrac 1{\pi^n}}_{u(X)} \underbrace{\left(\left(1+(X_{(1)}-\alpha)^2\right)^{-1}\right) \cdots \left(\left(1+(X_{(n)}-\alpha)^2\right)^{-1}\right)}_{v(y,\alpha)} \end{align*}\] donde \(y = (X_{(1)},\dots,X_{(n)})\) es suficiente para \(\alpha\).

Ejercicio 6.1 Estime \(\alpha\) de las siguientes dos formas:

  1. Usando el método de momentos.
  2. Escribiendo el código de la log-verosimilitud y maximizándola usando la función optim en R.
Código
# Muestra Cauchy con alpha = 2 (parámetro de localización)
set.seed(42)
n <- 30
alpha_true <- 2
x <- rcauchy(n, location = alpha_true)

# Log-verosimilitud de la Cauchy
log_verosimilitud <- function(alpha) {
  sum(dcauchy(x, location = alpha, log = TRUE))
}

# Maximizar numéricamente (optim minimiza por defecto; usamos fnscale = -1)
resultado <- optim(par = 0, fn = log_verosimilitud,
                   control = list(fnscale = -1),
                   method = "Brent", lower = -20, upper = 20)
(alpha_mle <- resultado$par)
[1] 1.81835
Código
import numpy as np
from scipy.optimize import minimize_scalar
import scipy.stats as stats

rng = np.random.default_rng(42)
n = 30
alpha_true = 2.0
x = rng.standard_cauchy(size=n) + alpha_true

# Log-verosimilitud de la Cauchy
def neg_log_verosimilitud(alpha):
    return -np.sum(stats.cauchy.logpdf(x, loc=alpha))

resultado = minimize_scalar(neg_log_verosimilitud, bounds=(-20, 20), method='bounded')
print(f"alpha_mle = {resultado.x:.4f}")
alpha_mle = 2.3720

Ya sabemos que los estadísticos suficientes existen — el estadístico de orden siempre lo es — pero queremos el más compacto posible. El estadístico de orden tiene \(n\) componentes; muchas veces podemos resumir toda la información en uno o dos números. Un estadístico minimal es aquel que no puede comprimirse más sin perder información.

Definición 6.4 Un estadístico \(T\) es suficiente minimal si \(T\) es suficiente y es función de cualquier otro estadístico suficiente.

Teorema 6.4 Si \(T = r(X_1,\dots, X_n)\) es un estadístico suficiente para \(\theta\), entonces el MLE \(\hat\theta\) de \(\theta\) depende de \(X_1,\dots, X_n\) solamente a través de \(T\). Además, si \(\hat \theta\) es suficiente entonces \(\hat \theta\) es minimal.

Por teorema de factorización, \(f_n(x|\theta) = u(x)v(r(x),\theta)\) de \(T =r(x)\) es suficiente y \[ \hat\theta = \operatorname*{argmax}_\theta f_n(x|\theta) = \operatorname*{argmax}_\theta v(r(x),\theta) \tag{6.1}\]

Como \(\hat\theta = g(T)\) para cualquier \(T\) estadístico suficiente, entonces \(\hat\theta\) es minimal.

Teorema 6.5 Si \(T = r(X_1,\dots, X_n)\) es un estadístico suficiente para \(\theta\) entonces el estimador bayesiano (bajo una escogencia de \(L\)) depende de \(X_1,\dots, X_n\) solamente a través de \(T\) (el estimador bayesiano es minimal).

En Ecuación 6.1 sustituya \(f_n(x\vert\theta)\) por \(\pi(\theta|x) \propto v(r(x),\theta)\cdot\pi(\theta)\). Como cualquier estimador bayesiano depende de \(\pi(\theta|x)\), cualquier estimador bayesiano depende de los datos a través de \(r(x)\).

Observación. Si \(\hat\theta\) es suficiente (en particular, cuando el MLE es suficiente), entonces \(\hat\theta\) es minimal: cualquier otro estadístico suficiente \(T'\) tiene a \(\hat\theta\) como función, \(\hat\theta = g(T')\). El estadístico minimal es el resumen más compacto posible — todo otro estadístico suficiente contiene al menos tanta información como él.

flowchart LR
  T1("Suficiente T'") --> Tmin("Minimal T*")
  T2("Suficiente T''") --> Tmin
  Tmin --> MLE("MLE = g(T*)")
  Tmin --> Bayes("Est. Bayes = h(T*)")
  Tmin --> P(["Parámetro θ"])
Figura 6.1
TipIdeas clave — Estadísticos minimales
  • El estadístico de orden \((X_{(1)},\dots,X_{(n)})\) siempre es suficiente, pero raramente es el más compacto; tiene \(n\) componentes.
  • El MLE, cuando es suficiente, es automáticamente minimal.
  • El estimador bayesiano también depende de los datos únicamente a través del estadístico suficiente, por lo que también es minimal.
  • Minimal no significa único: distintas funciones biyectivas del mismo estadístico suficiente son igualmente minimales.

6.5 Mejorando estimadores

En las secciones anteriores identificamos estadísticos suficientes e introdujimos la idea de minimalidad. Tenemos ahora toda la maquinaria para responder la pregunta central de este capítulo: dado un estimador cualquiera, ¿podemos mejorarlo sistemáticamente usando el estadístico suficiente?

Hasta ahora hemos aprendido a identificar estadísticos suficientes. Pero ¿qué ganamos con eso? La respuesta es el teorema de Rao-Blackwell: dado cualquier estimador (incluso uno construido por intuición), siempre es posible mejorarlo — o al menos no empeorarlo — tomando su esperanza condicional dado un estadístico suficiente. Esto convierte la suficiencia en una herramienta constructiva, no solo descriptiva.

TipPreguntas

¿Será posible mejorar un estimador que no es suficiente?

¿Existirá otra medida de comparación entre estimadores?

Considere una función de riesgo o pérdida \[ R(\theta,\delta) = \mathbb E[(\delta(x)-\theta)^2] \] Si \(\delta(x)\) estima una característica de \(F\): \[ R(\theta,\delta) = \mathbb E[(\delta(x)-h(\theta))^2] \tag{6.2}\] donde \(h\) es la característica.

Observación. La función de riesgo puede ser calculada con una posterior \(\pi(\theta|X)\).

Definición 6.5  

  • Decimos que \(\delta\) es inadmisible si \(\exists \delta_0\) (otro estimador) tal que \(R(\theta, \delta_{0}) \leq R(\theta,\delta)\) \(\forall \theta \in \Omega\).
  • Decimos que \(\delta_0\) domina a \(\delta\) en el caso anterior.
  • Decimos que \(\delta\) es admisible si no existe ningún estimador que domine a \(\delta\).
  • A Ecuación 6.2 se le llama MSE o error cuadrático medio.

Teorema 6.6 (Rao-Blackwell) Sea \(\delta(X)\) un estimador y \(T\) un estadístico suficiente para \(\theta\) y sea \(\delta_0 = \mathbb E[\delta(X)|T]\). Entonces \[ R(\theta,\delta_0) \leq R(\theta,\delta) \; \forall \theta \in \Omega \]

Por la desigualdad de Jensen, \[ \mathbb E_\theta[(\delta(x)-\theta)^2] \geq (E_\theta[(\delta(x)-\theta)])^2. \] También, \[ \mathbb E[(\delta(x)-\theta)^2|T] \geq (E[(\delta(x)|T)]-\theta)^2 = (\delta_0(T)-\theta)^2. \]

Tomando esperanza en ambos lados de la segunda desigualdad y aplicando la ley de la esperanza total, \[ R(\theta,\delta_0) = \mathbb{E}[(\delta_0(T)-\theta)^2] \leq \mathbb{E}\!\left[\mathbb{E}[(\delta(x)-\theta)^2\mid T]\right] = \mathbb{E}[(\delta(x)-\theta)^2] = R(\theta,\delta). \]

Observación. Si cambiamos a \(R(\theta,\delta) = \mathbb E[|\delta(x)-\theta|]\) (error medio absoluto), el resultado anterior es cierto.

Ejemplo 6.8 Sean \(X_1,\dots, X_n \stackrel{i.i.d}{\sim} \text{Poisson}(\theta)\) donde \(\theta\) es la tasa de “visitas” de clientes por hora.

Defina el caso donde solo nos interesa si hay una visita por hora.

Podemos escribir la v.a. como \(Y_i = \begin{cases} 1 & \text{si } X_i = 1\\ 0 & \text{si } X_i \ne 1\end{cases}\).

En este caso, tenemos que para una Poisson \(\text{Poisson}(\theta)\), \(\mathbb{P}(X_i = 1) = \theta e^{-\theta}\).

Si suponemos que \(\theta=2\), entonces el parametro de interés es \(p = \mathbb{P}(X_i = 1) = 2e^{-2}=0.2707\).

Nota

El objetivo es encontrar un estimador de \(p\) que sea lo más cercano a \(0.2707\).

Numéricamente podemos hacer el ejemplo con una muestra de \(n = 20\),

Código
set.seed(42)
x <- rpois(n = 20, lambda = 2)
head(x, 20)
 [1] 4 4 1 3 2 2 3 0 2 3 2 3 4 1 2 4 5 0 2 2
Código
hist(x)

Código
import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(42)
x = rng.poisson(lam=2, size=20)
print(x[:20])
[4 3 3 2 1 5 2 0 1 3 1 0 1 4 3 1 1 4 1 0]
Código
plt.hist(x, bins=range(0, int(x.max()) + 2), edgecolor='black', align='left')
plt.xlabel('x')
plt.ylabel('Frecuencia')
plt.title('Muestra Poisson(2), n=20')
plt.show()

A partir de la verosimilitud, \[ f_n(X|\theta) = \dfrac{e^{-\theta n} \theta^{\sum_{i=1}^{n} X_i}}{\prod_{i=1}^{n} X_i!} \] se tiene que \(T=\sum_{i=1}^{n} X_i\) es un estadístico suficiente para \(\theta\).

Esta \(Y\) se calcula de la forma

Código
y <- x == 1
head(y, 5)
[1] FALSE FALSE  TRUE FALSE FALSE
Código
y = (x == 1)
print(y[:5])
[False False False False  True]

El objetivo es estimar \(p\) donde \(p\) es la probabilidad de que \(X_i =1\) (solo llegue un cliente por hora). Un estimador de \(p\) (MLE) es \[ \delta(x) = \dfrac{\sum_{i=1}^{n} Y_i}{n} \]

Código
(delta <- mean(y))
[1] 0.1
Código
delta = y.mean()
print(f"delta = {delta:.4f}")
delta = 0.3500

¿Este estimador \(\delta\) es lo más óptimo que podemos hacer?

Para esto usaremos el teorema de Rao-Blackwell. Entonces calculamos \[ \mathbb E[\delta(x)|T] = \dfrac 1n \sum_{i=1}^n \mathbb E (Y_i|T) \] Vea que

\[\begin{equation} \begin{aligned} \mathbb E[Y_i|T = t] & = \mathbb{P}(X_i = 1 \vert T = t) \\ & = \dfrac{\mathbb{P}(X_i = 1, T=t)}{\mathbb{P}(T=t)} \\ & = \dfrac{\mathbb{P}(X_i = 1, \sum_{j\ne i} X_j = t-1)}{\mathbb{P}(T=t)} \\ & = \dfrac{\mathbb{P}(X_i = 1) \mathbb{P}(\sum_{j\ne i} X_j = t-1)}{\mathbb{P}(T=t)} \end{aligned} \end{equation}\] {#eq-exr-rao-blackwell-1}

Ahora cada componente de la última expresión se puede escribir como

\[\begin{equation} \begin{aligned} \mathbb{P}(X_i = 1) & = \theta e^{-\theta} \\ \mathbb{P}(\sum_{j\ne i}X_j = t-1) & = e^{-(n-1)\theta}\dfrac{((n-1)\theta)^{t-1}}{(t-1)!} \\ \mathbb{P}(T=t) & = e^{-n\theta}\dfrac{(n\theta)^t}{t!} \end{aligned} \end{equation}\] {#eq-exr-rao-blackwell-2}

Entonces, uniendo ?eq-exr-rao-blackwell-1 y ?eq-exr-rao-blackwell-2 se tiene que, \[\begin{align*} \mathbb E[Y_i|T = t] & = \dfrac{\theta e^{-n\theta}\dfrac{((n-1)\theta)^{t-1}}{(t-1)!}}{e^{-n\theta}\dfrac{(n\theta)^t}{t!}} \\ & = \dfrac tn \left(1-\dfrac 1n\right)^{t-1} \end{align*}\]

es el estadístico con MSE mínimo.

Código
est_suficiente <- sum(x)
n <- length(x)
(
  delta_0 <- (est_suficiente / n) *
    (1 - 1 / n)^(est_suficiente - 1)
)
[1] 0.2088811
Código
t = x.sum()          # estadístico suficiente T = sum(X_i)
n = len(x)
delta_0 = (t / n) * (1 - 1/n)**(t - 1)
print(f"delta_0 = {delta_0:.4f}")
delta_0 = 0.2706

En este caso \(\delta_0\) es mejor que \(\delta\) bajo una pérdida cuadrática.

Solo para comprobar, note que si tuviéramos una muestra grande los dos resultados serían similares

Código
set.seed(42)
x_10000 <- rpois(n = 10000, lambda = 2)
y_10000 <- x_10000 == 1

(delta <- mean(y_10000))
[1] 0.268
Código
est_suficiente <- sum(x_10000)
n <- length(x_10000)
(
  delta_0 <- (est_suficiente / n) *
    (1 - 1 / n)^(est_suficiente - 1)
)
[1] 0.2716586
Código
rng2 = np.random.default_rng(42)
x_10000 = rng2.poisson(lam=2, size=10_000)
y_10000 = (x_10000 == 1)

delta = y_10000.mean()
print(f"delta    = {delta:.6f}")
delta    = 0.272700
Código
t = x_10000.sum()
n = len(x_10000)
delta_0 = (t / n) * (1 - 1/n)**(t - 1)
print(f"delta_0  = {delta_0:.6f}")
delta_0  = 0.270995

6.6 Resumen

Concepto Definición clave Cuándo se usa
Estadístico suficiente \(f_n(X | \theta) = u(X)\,v(T,\theta)\) Identificar qué resumen de los datos captura toda la información
Factorización de Fisher Condición necesaria y suficiente para la suficiencia Verificar suficiencia factorizando la verosimilitud
Suficiente minimal Es función de cualquier otro estadístico suficiente El MLE siempre es minimal cuando es suficiente
Rao-Blackwell \(R(\theta, \mathbb{E}[\delta | T]) \leq R(\theta, \delta)\) Mejorar estimadores condicionando en el estadístico suficiente

Distribuciones y sus estadísticos suficientes:

Distribución Estadístico suficiente
\(\text{Poisson}(\lambda)\) \(T = \sum X_i\)
\(f(x | \theta) = \theta x^{\theta-1}\), \(0<x<1\) \(T = \prod X_i\)
\(N(\mu, \sigma^2)\), \(\sigma^2\) conocido \(T = \sum X_i\)
\(N(\mu, \sigma^2)\), ambos desconocidos \(T = \bigl(\sum X_i,\, \sum X_i^2\bigr)\)
\(\text{Unif}(0,\theta)\) \(T = X_{(n)}\)
\(\text{Unif}(a,b)\) \(T = \bigl(X_{(1)},\, X_{(n)}\bigr)\)