Explore ejemplos de estimación de máxima verosimilitud

Supongamos que tenemos una muestra aleatoria de una población de interés. Podemos tener un modelo teórico para la forma en que se distribuye la población. Sin embargo, puede haber varios parámetros de población de los cuales no conocemos los valores. La estimación de máxima verosimilitud es una forma de determinar estos parámetros desconocidos. 

La idea básica detrás de la estimación de máxima verosimilitud es que determinamos los valores de estos parámetros desconocidos. Hacemos esto de tal manera para maximizar una función de densidad de probabilidad conjunta asociada o una función de masa de probabilidad. Veremos esto con más detalle en lo que sigue. Luego calcularemos algunos ejemplos de estimación de máxima verosimilitud.

Pasos para la estimación de máxima verosimilitud

La discusión anterior se puede resumir en los siguientes pasos:

  1. Comience con una muestra de variables aleatorias independientes X1, X2,… Xnorte de una distribución común cada uno con función de densidad de probabilidad f (x; θ1,... θk) Las thetas son parámetros desconocidos.
  2. Como nuestra muestra es independiente, la probabilidad de obtener la muestra específica que observamos se encuentra multiplicando nuestras probabilidades juntas. Esto nos da una función de probabilidad L (θ1,... θk) = F (x1 ; θ1,... θk) f (x2 ; θ1,... θk)… F (xnorte ; θ1,... θk) = Π f (xyo ; θ1,... θk).
  3. Luego, usamos Cálculo para encontrar los valores de theta que maximizan nuestra función de probabilidad L. 
  4. Más específicamente, diferenciamos la función de probabilidad L con respecto a θ si hay un único parámetro. Si hay múltiples parámetros, calculamos derivadas parciales de L con respecto a cada uno de los parámetros theta.
  5. Para continuar el proceso de maximización, establezca la derivada de L (o derivadas parciales) igual a cero y resuelva para theta.
  6. Luego podemos usar otras técnicas (como una segunda prueba derivada) para verificar que hemos encontrado un máximo para nuestra función de probabilidad.

Ejemplo

Supongamos que tenemos un paquete de semillas, cada una de las cuales tiene una probabilidad constante pag del éxito de la germinación. Plantamos norte de estos y contar el número de los que brotan. Suponga que cada semilla brota independientemente de las demás. ¿Cómo determinamos el estimador de máxima verosimilitud del parámetro? pag?

Comenzamos señalando que cada semilla está modelada por una distribución de Bernoulli con un éxito de pag. Dejamos X sea ​​0 o 1, y la función de masa de probabilidad para una sola semilla es F( X ; pag ) = pagX (1 - pag)1 - x

Nuestra muestra consta de norte  diferente Xyo, cada uno de tiene una distribución de Bernoulli. Las semillas que brotan tienen Xyo = 1 y las semillas que no brotan tienen Xyo = 0. 

La función de probabilidad viene dada por:

L ( pag ) = Π pagXyo (1 - pag)1 - Xyo

Vemos que es posible reescribir la función de probabilidad utilizando las leyes de los exponentes.. 

L ( pag ) = pagΣ xyo (1 - pag)norte - Σ xyo

A continuación diferenciamos esta función con respecto a pag. Suponemos que los valores para todos los Xyo son conocidos, y por lo tanto son constantes. Para diferenciar la función de probabilidad, necesitamos usar la regla del producto junto con la regla de potencia:

L '( pag ) = Σ xyopag-1 + Σ xyo (1 - pag)norte - Σ xyo - (norte - Σ xyo )pagΣ xyo (1 - pag)norte-1 - Σ xyo

Reescribimos algunos de los exponentes negativos y tenemos:

L '( pag ) = (1 /pag) Σ xyopagΣ xyo (1 - pag)norte - Σ xyo - 1 / (1 - pag) (norte - Σ xyo )pagΣ xyo (1 - pag)norte - Σ xyo

= [(1 /pag) Σ xyo - 1 / (1 - pag) (norte - Σ xyo)]yopagΣ xyo (1 - pag)norte - Σ xyo

Ahora, para continuar el proceso de maximización, establecemos esta derivada igual a cero y resolvemos pag:

0 = [(1 /pag) Σ xyo - 1 / (1 - pag) (norte - Σ xyo)]yopagΣ xyo (1 - pag)norte - Σ xyo

Ya que pag y 1- pag) son distintos de cero tenemos que

0 = (1 /pag) Σ xyo - 1 / (1 - pag) (norte - Σ xyo).

Multiplicar ambos lados de la ecuación por pag(1- pag) Nos da:

0 = (1 - pag) Σ xyo - pag (norte - Σ xyo).

Expandimos el lado derecho y vemos:

0 = Σ xyo - pag Σ xyo - pag norte + pΣ xyo = Σ xyo - pag norte.

Entonces Σ xyo = pag norte y (1 / n) Σ xyo = p. Esto significa que el estimador de máxima verosimilitud de pag Es una media de muestra. Más específicamente, esta es la proporción de muestra de las semillas que germinaron. Esto está perfectamente en línea con lo que la intuición nos diría. Para determinar la proporción de semillas que germinarán, primero considere una muestra de la población de interés..

Modificaciones a los Pasos

Hay algunas modificaciones a la lista de pasos anterior. Por ejemplo, como hemos visto anteriormente, normalmente vale la pena pasar algún tiempo usando algo de álgebra para simplificar la expresión de la función de probabilidad. La razón de esto es hacer que la diferenciación sea más fácil de llevar a cabo..

Otro cambio en la lista de pasos anterior es considerar los logaritmos naturales. El máximo para la función L ocurrirá en el mismo punto que para el logaritmo natural de L. Por lo tanto, maximizar ln L es equivalente a maximizar la función L.

Muchas veces, debido a la presencia de funciones exponenciales en L, tomar el logaritmo natural de L simplificará en gran medida parte de nuestro trabajo..

Ejemplo

Vemos cómo usar el logaritmo natural revisando el ejemplo de arriba. Comenzamos con la función de probabilidad:

L ( pag ) = pagΣ xyo (1 - pag)norte - Σ xyo .

Luego usamos nuestras leyes de logaritmo y vemos que:

R ( pag ) = ln L ( pag ) = Σ xyo En pag + (norte - Σ xyo) ln (1 - pag).

Ya vemos que la derivada es mucho más fácil de calcular:

R '( pag ) = (1 /pag) Σ xyo - 1 / (1 - pag) (norte - Σ xyo) .

Ahora, como antes, establecemos esta derivada igual a cero y multiplicamos ambos lados por pag (1 - pag):

0 = (1- pag ) Σ xyo pag(norte - Σ xyo) .

Resolvemos para pag y encuentra el mismo resultado que antes.

El uso del logaritmo natural de L (p) es útil de otra manera. Es mucho más fácil calcular una segunda derivada de R (p) para verificar que realmente tenemos un máximo en el punto (1 / n) Σ xyo = p.

Ejemplo

Para otro ejemplo, supongamos que tenemos una muestra aleatoria X1, X2,… Xnorte de una población que estamos modelando con una distribución exponencial. La función de densidad de probabilidad para una variable aleatoria tiene la forma F( X ) = θ-1 mi -X/ θ

La función de probabilidad viene dada por la función de densidad de probabilidad conjunta. Este es un producto de varias de estas funciones de densidad:

L (θ) = Π θ-1 mi -Xyo/ θ = Θ-norte mi Xyo/ θ

Una vez más, es útil considerar el logaritmo natural de la función de probabilidad. Diferenciar esto requerirá menos trabajo que diferenciar la función de probabilidad:

R (θ) = ln L (θ) = ln [θ-norte mi Xyo/ θ]

Utilizamos nuestras leyes de logaritmos y obtenemos:

R (θ) = ln L (θ) = - norte ln θ + -ΣXyo/ θ

Nos diferenciamos con respecto a θ y tenemos:

R '(θ) = - norte / θ + ΣXyo/ θ2

Establezca esta derivada igual a cero y vemos que:

0 = - norte / θ + ΣXyo/ θ2.

Multiplica ambos lados por θ2 y el resultado es:

0 = - norte θ + ΣXyo.

Ahora usa álgebra para resolver θ:

θ = (1 / n) ΣXyo.

De esto vemos que la media de la muestra es lo que maximiza la función de probabilidad. El parámetro θ para ajustarse a nuestro modelo debería ser simplemente la media de todas nuestras observaciones..

Conexiones

Hay otros tipos de estimadores. Un tipo alternativo de estimación se llama estimador imparcial. Para este tipo, debemos calcular el valor esperado de nuestra estadística y determinar si coincide con un parámetro correspondiente.