7  Estimación insesgada

Un estimador es una función que calcula una estimación o predicción de un parámetro desconocido en una distribución de probabilidad. En estadística, uno de los criterios importantes para evaluar la calidad de un estimador es si es insesgado.

Un estimador se considera insesgado si su valor esperado es igual al valor verdadero del parámetro que se está estimando. Esto se puede expresar matemáticamente como:

Eθ[δ(x)]=g(θ),

donde δ(x) es el estimador, g(θ) es el parámetro que se está estimando y Eθ es el valor esperado bajo la distribución de probabilidad f(x|θ). A la diferencia entre E[δ(x)] y g(θ) se le conoce como el sesgo del estimador.

Ejemplo 7.1 Un ejemplo de un estimador insesgado es el promedio muestral X¯n cuando tenemos una muestra X1,,Xn de una distribución con media μ cualquiera. En este caso: E[X¯n]=1ni=1nE(Xi)=μ

Lo que significa que X¯n es estimador insesgado de la media poblacional μ.

Aunque la propiedades ser insesgado pareciera natural en los estimadores, no siempre tenemos esto.

Ejemplo 7.2 Considere una muestra X1,X2,X3Exp(θ) con función de densidad f(x|θ)=θeθx.

De acuerdo a los ejemplos de capítulos pasados, el estimador de máxima verosimilitud de θ es

θ^=3T=3i=13Xi,

Podemos preguntarnos si θ^ es un estimador insesgado de θ. Para responder a esta pregunta, realizamos una simulación en R para estimar el sesgo de θ^ utilizando valores generados aleatoriamente.

Código
set.seed(123)
theta_real <- 5
muestra <- matrix(rexp(n = 1000 * 3, rate = theta_real), ncol = 3)

suma_muestra <- apply(X = muestra, MARGIN = 1, FUN = sum)

theta_techo <- 3 / suma_muestra

hist(theta_techo - theta_real, breaks = 100)

El histograma muestra la diferencia entre las estimaciones θ^ y el valor verdadero θ. Teóricamente, podemos calcular el sesgo de θ^ y encontramos que:

E[θ^]=E[3T]=3E[1T],TΓ(3,θ)

Como 1TGamma Inversa(3,θ), se tiene que

1 La Gamma Inversa con parámetros α y β tiene media βα1.

E[1T]=θ2E[θ^]=3θ2θ

Por lo que θ^ es un estimador sesgado, con sesgo sesgo(θ^)=3θ2θ=θ2.

Si por ejemplo θ=5, entonces la diferencia debería ser aproximadamente 522.5. Calculemos la diferencia promedio entre el estimador y el valor real:

Código
mean(theta_techo - theta_real)
[1] 2.804016

Tomemos otro estimador, θU=2θ^3=233T=2T. Entonces la esperanza de θU es: E[θU]=23E(θ^)=2332θ=θ.

Entonces θU es un estimador insesgado.

Comprobemos que efectivamente θU es insesgado:

Código
theta_u <- 2 / suma_muestra
mean(theta_u - theta_real)
[1] 0.2026772

Con esto concluimos que el estimador de máxima verosimilitud no siempre es insesgado.

En un mundo ideal, nos gustaría tener estimadores insesgados pero que además tengan varianza pequeña, i.e., Var(δ(x))0.

Ejemplo 7.3 Considere una muestra X1,X2,,XnExp(θ). De acuerdo a los ejemplos de capítulos pasados, el estimador de máxima verosimilitud de θ es 1X¯n

  • Generaremos múltiples muestras de una distribución exponencial con un θ verdadero.
  • Estimaremos θ para cada muestra utilizando el MLE.
  • Calcularemos el sesgo y la varianza de nuestras estimaciones.
  • Graficaremos cómo varían el sesgo y la varianza con el tamaño de la muestra.

Sesgo y Varianza del MLE para θ de una distribución exponencial

Viendo el gráfico queda la pregunta

Importante

¿Cómo controlar sesgo y varianza?

Para esto definamos el error cuadrático medio (MSE) de δ(x) como MSE(δ(x))=E[(δ(x)θ)2].

Escribiendo la defnición de esta cantidad, podemos desagregar el MSE en dos partes:

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^]+E[θ^]θ)2]=E[(θ^E[θ^])2]+E[(E[θ^]θ)2]+2(E[θ^E[θ^])(E[θ^]θ)]=E[(θ^E[θ^])2]+E[(E[θ^]θ)2]+2(E[θ^]E[θ^])=0(E[θ^]θ)]=E[(θ^E[θ^])2]+E[(E[θ^]θ)2]=Var(θ^)+Sesgo2(θ^).

Si δ tiene varianza finita, entonces definimos el error cuadrático medio (MSE) de θ^ como,

MSEθ(θ^)=Sesgo2(θ^)+Var(θ^).

Ejemplo 7.4 De acuerdo al primer ejemplo del capítulo, nos interesa comparar θ^ y U=2T en términos del MSE.

Dado que Var(1T)=θ24, se tiene

2 Si XGamma-Inversa(α,β) entonces Var(X)=β2(α1)2(α2).

  • MSE(θU)=Var(2T)=4θ24=θ2.
Código
var(theta_u) + mean(theta_u - theta_real)^2
[1] 28.17069
  • MSE(θ^)=(Sesgo(θ^))2+Var(3T)=θ24+9θ24=5θ22.
Código
var(theta_techo) + mean(theta_techo - theta_real)^2
[1] 71.15413

θU es mejor estimador en términos de MSE que el θ^.

Observación. El estimado bayesiano es θBayes=42+T y este es un poco más eficiente que los otros dos.

Código
theta_bayes <- 4 / (2 + suma_muestra)
var(theta_bayes) + mean(theta_bayes - theta_real)^2
[1] 11.87193

7.1 Estimador insesgado de la varianza

Llegados a este punto, hemos estudiado con mucho detalle los estimadores de la media de una distribución. Hemos visto que en general estos estimadores son insesgados, suficientes, consistentes y eficientes. Sin embargo, en muchas ocasiones nos interesa encontrar un estimador insesgado de la varianza de una distribución. Para esto, consideremos una muestra X1,,Xn de una distribución Fθ con varianza finita.

Definamos la varianza muestras como

s2=1n1i=1n(XiX¯n)2.

la cual se contrapone con la varianza poblacional

σ^2=1ni=1n(XiX¯n)2.

Ambas son idénticas a excepción del denominador n o n1. Sin embargo, la diferencia fundamental reside en este teorema.

Teorema 7.1 Si X1,,XnFθ con varianza finita y g(θ)=Var(X1) entonces s2=1n1(XiX¯n)2 es un estimador insesgado de σ2.

Considere que

i=1n(Xiμ)2=i=1n(XiX¯n)2+n(X¯nμ)2

Entonces si σ^2=1ni=1n(XiX¯n)2

E[σ^2]=E[i=1n(XiX¯n)2n]=E[1ni=1n(Xiμ)2]E[(X¯nμ)2]=σ2σ2n=(n1n)σ2.

Para que σ^2 sea insesgado, \mathbb E \left[\dfrac n{n-1}\hat\sigma^2ight = E[s] = ^2.]

Entonces s es estimador insesgado de σ2.

Ejemplo 7.5 Sean X1,,Xni.i.dPoisson(θ). E(Xi)=Var(Xi)=θ. Algunos estimadores insesgados de θ son:

  1. X¯n.

  2. s2.

  3. Si α(0,1), T=αX¯n+(1α)s2 también es un estimador insesgado.

Código
muestra <- matrix(rpois(n = 1000 * 100, lambda = 2), nrow = 100)

media <- apply(muestra, 1, mean)
varianza <- apply(muestra, 1, var)
ambos <- apply(muestra, 1, function(x, alpha) {
  alpha * mean(x) + (1 - alpha) * var(x)
}, alpha = 0.5)

hist(media)

Código
hist(varianza)

Código
hist(ambos)

Ejemplo 7.6 En caso de distribuciones normales, ¿Cuál estimador tiene menor MSE, σ^2 o s2?

Defina Tc=ci=1n(XiX¯n)2. Si c=1/n, Tc=σ^2 y si c=1/(n1), Tc=s2. De esta manera,

MSEσ2(Tc)=E[(Tcσ2)2]=(E(Tc)σ2)2+Var(Tc).

E[Tc]=cE[i=1n(XiX¯n)2]=c(n1)E[i=1n(XiX¯n)2n1]=c(n1)σ2.

Var(Tc)=c2Var(i=1n(XiX¯n)2)=c2Var(σ2i=1n(XiX¯n)σ2χn12)=2c2σ4(n1).

Entonces

MSEσ2(Tc)=[c(n1)σ2σ2]2+2c2σ4(n1)=[[c(n1)1]2+2c2(n1)]σ4.

Optimizando,

mincMSE(Tc)=minc[(n21)c22(n1)c+1],

se encuentra que c^=1n+1. Así, T1n+1=i=1n(XiX¯n)2n+1 es el mejor estimador de σ2 en el sentido de MSE. Aunque se puede demostrar que este estimador es inadmisible.

Ejercicio 7.1 Calcule el MSE de σ^2 y s2 y compare los resultados.

7.2 Información de Fisher

La Información de Fisher es una herramienta fundamental en inferencia estadística que nos permite cuantificar la cantidad de información que una muestra proporciona acerca de un parámetro desconocido.

Consideremos una variable aleatoria X con función de densidad f(x|θ), donde θΩR es un parámetro fijo. Supongamos que X satisface los siguiente supuestos:

  1. Para cada xX (espacio muestral de X), se tiene que f(x|θ)>0 para todo θΩ. En otras palabras, la función f(xθ) depende de un parámetro θ desconocido, pero el dominio de esta función no depende de θ.
  2. La función f(x|θ) es dos veces diferenciable con respecto a θ.
  3. Es posible intercambiar el orden de la derivada y la integral en la siguiente expresión: ddθXf(x|θ)dx=Xddθf(x|θ)dx.

Ejemplo 7.7 Si X sigue una distribución uniforme en el intervalo [0,θ], es decir, XUnif[0,θ], entonces f(x|θ)=1(0,θ)(x). En este caso, el primer supuesto no se cumple, ya que si x>θ, entonces f(x|θ)=0. Esto significa que el dominio de la distribución no debe depender de θ.

La siguiente función será clave para definir la información de Fisher.

Definición 7.1 Definimos la función Score como: λ(x|θ)=lnf(x|θ) Sus derivadas son: λ(x|θ)=θlnf(x|θ) λ(x|θ)=2θ2lnf(x|θ)

Definición 7.2 Si X y f(x|θ) cumplen con los supuestos mencionados, la información de Fisher de X está dada por: I(θ)=E[(λ(x|θ))2] Donde la esperanza es una integral o suma, dependiendo de si X es continua o discreta. Por ejemplo, para una variable continua: I(θ)=X[λ(xθ)]2f(xθ)dx

Teorema 7.2 Bajo las condiciones anteriores, y suponiendo que las dos derivadas de Xf(x|θ)dx con respecto a θ (Supuesto 3) se pueden calcular al intercambiar el orden de integración y derivación. Entonces

I(θ)=Eθ[λ(x|θ)]=Var[λ(x|θ)].

E[λ(x|θ)]=Xλ(x|θ)f(x|θ)dx=Xf(x|θ)f(x|θ)f(x|θ)dx=Xf(x|θ)dx=ddθXf(x|θ)dx(por supuesto 3.)=ddθ1=0

En consecuencia, Var(λ(x|θ))=E[(λ(x|θ))2]0=I(θ).

Además, λ(x|θ)=(f(x|θ)f(x|θ))=f(x|θ)f(x|θ)f(x|θ)2f2(x|θ)=f(x|θ)f(x|θ)(λ(x|θ))2

Note que (por los supuestos 2 y 3),

E[f(x|θ)f(x|θ)]=Xf(x|θ)f(x|θ)f(x|θ)dx=ddθ[ddθXf(x|θ)dx]=ddθ[ddθ1]=0

Entonces, E[λ(x|θ)]=E[f(x|θ)f(x|θ)]E[(λ(x|θ))2]=I(θ).

Se concluye, además, que λ(x|θ) es centrada y su varianza es I(θ).

La Información de Fisher es una herramienta esencial en inferencia estadística que nos permite cuantificar la cantidad de información que una muestra proporciona acerca de un parámetro desconocido.

RESULTADO IMPORTANTE

Dada la función score λ(x|θ)=lnf(x|θ), se tienen los siguientes resultados:

  • λ(x|θ) es una variable aleatoria.
  • E[λ(x|θ)]=0.
  • La varianza de λ(x|θ) es igual a la información de Fisher: Var[λ(x|θ)]=I(θ)=E[λ(x|θ).

Ejemplo 7.8 Si XBernoulli(p), entonces:

  1. La función de densidad es f(x|p)=px(1p)1x para x=0,1, la cual satisface el supuesto 1.
  2. Se puede comprobar que satisfacen el supuesto 3, es decir, Xddpf(x|p)dx=ddpXf(x|p)dx.
  3. La función score es λ(x|p)=xlnp+(1x)ln(1p).
  4. Las derivadas de la función score son:
  • λ(x|p)=xp1x1p.
  • λ(x|p)=xp21x(1p)2.

La información de Fisher para esta distribución es:

I(p)=E[xp+1x(1p)2]=pp2+1p(1p)2=1p(1p)=1Var(X).

Ejemplo 7.9 Para XN(μ,σ2) con μ desconocida y σ2 conocida:

  1. La función de densidad es: f(x|μ)=12πσ2exp(12σ2(xμ)2).
  2. El tercer supuesto se cumple ya que dduRf(x|μ)dx=Rf(x|μ)dx=R12πσ22(xμ)22σ2dx=1σRu2πeu2duE[N(0,1)]=0usando el cambio de variable xμσ

Entonces:

  1. La función score es λ(x|μ)=12ln(2πσ2)12σ2(xμ)2.
  2. Las derivadas de la función score son:
  • λ(xμ)=xμσ2.
  • λ(xμ)=1σ2.

La información de Fisher para esta distribución es: I(μ)=E[λ(xμ)]=1Var(X)

Estos ejemplos fueron estimados usando solo un dato X de la distribución correspondiente. Sin embargo, este resultado se puede extender a una muestra X1,,Xn..

Definición 7.3 Suponga que X=(X1,,Xn) muestra de f(x|θ) donde f satisface las condiciones anteriores. Defina λn(xθ)=lnfn(x|θ). La información de Fisher de X es

In(θ)=E[(λn(x|θ))2]=E[λn(x|θ)].

Observación. La fórmula anterior, no es tan útil como quisieramos. En particular observe que λn(x|θ)=lnfn(x|θ)=i=1nλ(Xi|θ) lo que implica que λn(x|θ)=i=1nλ(Xi|θ). De esta forma, In(θ)=E[λ(x|θ)]=i=1nE[λ(Xi|θ)]=nI(θ).

Ejemplo 7.10 Suponga que una compañía quiere conocer como se comportan sus clientes en sus tiendas. Hay dos propuestas para este modelo

  • Un modelo Poisson de parámetro tθ (t es cualquier valor) para determinar la tasa promedio de llegada de clientes. YPoisson(θt).

  • Un modelo donde cada cliente es una v.a. exponencial con tasa de llegada θ y al final se sumará todas las variables para obtener una Gamma(n,θ). Xi=1nExp(θ)=Γ(n,θ)

El tiempo de llegada de cada cliente es independiente.

¿Cuál variable contiene más información de θ X o Y?

Solución:

Caso de la variable aleatoria Y

Acá tenemos que:

  • f(y|θ)=etθ(tθ)yy!.

  • λ(y|θ)=tθ+yln(tθ)lny!.

  • λ(y|θ)=t+tytθ.

  • λ(y|θ)=yθ2.

Entonces, IY(θ)=E[λ(y|θ)]=E[Y]θ2=tθ.

Caso de la variable aleatoria X

Para X queda como ejercicio, verificar que IX(θ)=nθ2.

Ambas variables tienen la misma información si

IY(θ)=IX(θ)tθ=nθ2n=θ2tθ=tθ.

A partir de este ejercicio vamos a hacer un pequeño ejemplo de simulación.

Suponga que t es el tiempo que se quiere medir la cantidad de clientes (minutos), θ es la cantidad de clientes por minuto y n es el número de clientes que entran.

Código
theta <- 5
tiempo <- 20 # t = tiempo
clientes <- tiempo * theta # n = clientes

muestra_y <- rpois(n = 1000, lambda = tiempo * theta)
muestra_x <- rgamma(n = 1000, shape = clientes, rate = theta)

Según lo estimado ambas informaciones de Fisher debería dar aproximadamente igualdad.

Para Y tenemos que

Código
mean(muestra_y / theta^2)
[1] 4.01772

Para X por otro lado la información de Fisher es constante (¿Por qué?)

Código
clientes / theta^2
[1] 4

Entonces bajo este criterio, ambas variables contienen la misma información, aunque modelen el problema desde ópticas diferentes.

El proceso Y (Poisson) modela cuántas personas en total entran a la tienda en 20 minutos, asumiendo una tasa de entrada de 5 personas por minuto.

Código
hist(muestra_y)

El proceso X (Gamma) modela cuánto tiempo se debe esperar para que 100 personas entren a la tienda, asumiendo una tasa de entrada de 5 por minuto.

Código
hist(muestra_x)

Ejercicio 7.2 Basado en los valores de la simulación, proponga dos valores de t para que

  • X tenga más información que Y.
  • Y tenga más información que X.

7.3 Desigualdad de Cramer-Rao

Teorema 7.3 Si X=(X1,,Xn) muestra de f(x|θ). Todos los supuestos anteriores son válidos para f. Sea T=r(X) un estadístico con varianza finita. Sea m(θ)=Eθ[T] y asuma que m es diferenciable. Entonces: Varθ(T)[m(θ)]2In(θ)=[m(θ)]2nI(θ).

La igualdad se da si y solo si existen funciones u(θ) y v(θ) que solo dependen de θ tales que T=u(θ)λn(x|θ)+v(θ).

Para el caso univariado: Xf(x|θ)dx=0.

Para el caso multivariado:

Xnfn(x|θ)dx1dxn=Xn[f(x1|θ)f(xn|θ)]dx1dxn=ddθXnf(x1|θ)f(xn|θ)dx1dxn=ddθ1=0.

Entonces

E[λn(X|θ)]=Xnfn(x|θ)f(x|θ)fn(x|θ)dx1dxn=0

Por lo tanto,

Ahora Covθ[T,λn(Xθ)]=Eθ[Tλn(Xθ)]=XnXnr(x)λn(xθ)fn(xθ)dx1dxn=Xnr(x)fn(x|θ)fn(x|θ)fn(x|θ)dx1dxn=XnXnr(x)fn(xθ)dx1dxn

Escriba la expresión

m(θ)=XnSr(x)fn(xθ)dx1dxn

Usando el supuesto de intercabio de integrales, tenemos que m(θ)=XnSr(x)fn(xθ)dx1dxn

Entonces tenemos que

Cov[T,λn(X|θ)]=ddθXnr(x)fn(x|θ)dx1dxn=ddθEθ[r(X)]=ddθEθ[T]=m(θ)

Considere el coeficiente de correlación ρ=Cov[T,λn(X|θ)]Var(T)Var(λn(X|θ)).

Dado que |p|1ρ21, se tiene que

Cov[T,λn(X|θ)]2Var(T)Var(λn(X|θ))[m(θ)]2Var(T)In(θ). Entonces Var(T)[m(θ)]2In(θ).

Caso particular

Si T es un estimador insesgado de θ, entonces Varθ(T)1In(θ).

Ejemplo 7.11 Sea X1,,XnExp(β), n>2.

  • f(x|β)=βeβx, x>0.

  • λ(x|β)=lnf(x|β)=lnββx.

  • λ(x|β)=1βx.

  • λ=1β2.

Vea que 1=0βeβxdx=limuF(u)=limu[1eβu]

y el supuesto 3 se puede verificar por la diferenciabilidad de 1eβu.

Así, I(β)=E[λ(x|β)]=1β2,In(β)=nβ2.

Por ejemplo generemos una secuencia de valores de β de 1 hasta 5 para observar el comportamiento de su información de Fisher.

Código
beta <- seq(1, 5, length.out = 100)
n <- 100

lista_muestras <- lapply(
  X = beta,
  FUN = function(b) {
    matrix(rexp(n = n * 500, rate = b), nrow = 500)
  }
)

plot(beta, n / beta^2)

Considere el estadístico T=n1i=1nXi es un estimador insesgado de β. La varianza de T es β2n2.

La cota de Cramer Rao, si T es insesgado, es

1In(β)=β2n,

por lo que T no satisface la cota de Cramer Rao.

Este comportamiento podemos observarlo con nuestro ejemplo numérico.

Código
estimador1 <- sapply(
  X = lista_muestras,
  FUN = function(x) {
    apply(x, 1, function(xx) (n - 1) / sum(xx))
  }
)

plot(beta, apply(X = estimador1, MARGIN = 2, FUN = mean))

Código
plot(beta, apply(X = estimador1, MARGIN = 2, FUN = var))
lines(beta, beta^2 / n, col = "blue")
lines(beta, beta^2 / (n - 2), col = "red")

Ahora, estime θ=1β=m(β). Un estimador insesgado de θ es T=X¯n:

E[X¯n]=E[X1]=1β=θ,Var(X¯n)=Var(X¯1)n=1nβ2.

La cota de Cramer es

(m(β))2In(β)=(1/β2)2n/β2=β2nβ4=1nβ2.

X¯n satisface la cota de Cramer-Rao y además λ(X|β)=nβnX¯n=nβnTT=1nu(β)λn(X|β)+1βv(β).

Código
estimador2 <- sapply(
  X = lista_muestras,
  FUN = function(x) {
    apply(x, 1, function(xx) mean(xx))
  }
)

plot(1 / beta, apply(X = estimador2, MARGIN = 2, FUN = mean))

Código
plot(beta, apply(X = estimador2, MARGIN = 2, FUN = var))
lines(beta, 1 / (n * beta^2), col = "blue")

7.4 Estimadores eficientes

Definición 7.4 sea T es un estimador eficiente de su esperanza m(θ) si su varianza es la cota de Cramer-Rao.

Ejemplo 7.12 Sea X1,,XnPoisson(θ). X¯n es un estimador eficiente.

  • Verosimilitud: fn(X|θ)=enθθnX¯nXi!.

  • λn(X|θ)=nθ+nX¯nlnθlnXi!.

  • λn(X|θ)=n+cX¯nθ.

  • λn(X)=nX¯nθ2.

Entonces nθ2E[X¯n]=nθ.

La cota de Cramer-Rao es θn, pero Var(X¯n)=Var(X1)m=θn. Por lo que X¯n es eficiente.

Los otros candidatos para estimar θ s2=1n1i=1n(XiX¯n)2=1n1(XiX¯n)2, y αX¯n+(1α)σ^12 no son lineales con respecto a λ(X|θ) por lo que tienen mayor varianza que X¯n.

7.5 Comportamiento asintótico del MLE

Teorema 7.4 Teorema. Bajo las condiciones anteriores y si T es un estimador eficiente de m(θ) y m(θ)0, entonces 1σCR2[Tm(θ)]dN(0,1)

donde σCR2 es la varianza de la cota de Cramer-Rao.

Recuerde que λn(X|θ)=i=1nλ(Xi|θ). Como X es una muestra, λ(Xi|θ) son i.i.d, y

E[λ(Xi|θ)]=0,Var(λ(Xi|θ))=I(θ).

Como T es estimador eficiente de m(θ), E[T]=m(θ),Var(T)=(m(θ))2nI(θ)

y existen u(θ) y v(θ) tal que

T=v(θλ(X|θ))+v(θ).

  • E[T]=u(θ)E[λ(X|θ)]+v(θ)v(θ)=m(θ).

  • Var(T)=u2(θ)In(θ)v(θ)=m(θ)nI(θ).

Entonces T=m(θ)nI(θ)λ(X|θ)+m(θ). Por lo tanto,

[nI(θ)m(θ)2]12[Tm(θ)]=[1nI(θ)]12λn(x|θ)nN(0,1).

Teorema 7.5 Recuerde que el MLE θ^n se obtiene al resolver la ecuación λ(x|θ)=0. Además, λ(x|θ) y λ(x|θ) existen y las condiciones anteriores son ciertas. Entonces, la distribución asintótica de θ^n cumple que: [nI(θ)]1/2(θ^θ)N(0,1).

Ejemplo 7.13 Sea X1,,XnN(0,σ2), σ desconocida. σ^=[1ni=1n(XiX¯n)2]1/2 es MLE de σ y I(σ)=2σ2. Usando el teorema,

2nσ2(σ^σ)nN(0,1). O lo que es equivalente a σ^nN(σ,σ22n).

7.6 Estimador MLE en el caso bayesiano

Desde la perspectiva bayesiana, el Estimador de Máxima Verosimilitud θn tiene propiedades interesantes al hacer inferencias sobre un parámetro θ.

Propiedad General

Supongamos que la distribución a priori de θ está representada por una función de densidad de probabilidad (p.d.f.) positiva y diferenciable en un intervalo determinado. Si el tamaño de la muestra n es grande y se cumplen ciertas condiciones de regularidad (similares a las necesarias para asegurar la normalidad asintótica de θn), entonces la distribución a posteriori de θ, después de observar los valores X1,,Xn, será aproximadamente normal con media θn y varianza 1/[nI(θn)].