Estimación de Máxima Verosimilitud

Inferencia, estimación y toma de decisiones a partir de datos

Si debes elegir un solo valor para el parámetro θ, la regla más natural es esta: elige el θ que haga que los datos que realmente observaste sean lo más probables posible. Eso es estimación de máxima verosimilitud (EMV), el principio detrás del entrenamiento de casi todos los modelos en ML.

Dado un conjunto de datos x₁, …, xₙ supuesto independiente, la probabilidad del conjunto completo es el producto de las probabilidades por punto. Como función de θ, este producto es la verosimilitud:

Multiplicar muchas pequeñas probabilidades subfluye a cero y es incómodo diferenciar. La solución es tomar el logaritmo: el logaritmo de un producto es una suma, y el logaritmo es creciente por lo que no mueve al maximizador. Maximizamos la verosimilitud logarítmica:

Dónde aparece en el MLEntrenar un modelo es máxima verosimilitud. Minimizar entropía cruzada es exactamente maximizar la verosimilitud logarítmica de las etiquetas; la entropía cruzada es el negativo del logaritmo de la verosimilitud. Minimizar el error cuadrático medio es EMV bajo una suposición de ruido gaussiano. Cuando llamas .backward() y pasas al optimizador, estás escalando la superficie de la verosimilitud…

▶ Estimación de Máxima Verosimilitud

← Parámetros y Estimadores MLE para Distribuciones Comunes →