Inferencia, estimación y toma de decisiones a partir de datos
Si debes elegir un solo valor para el parámetro θ, la regla más natural es esta: elige el θ que haga que los datos que realmente observaste sean lo más probables posible. Eso es estimación de máxima verosimilitud (EMV), el principio detrás del entrenamiento de casi todos los modelos en ML.
Dado un conjunto de datos x₁, …, xₙ supuesto independiente, la probabilidad del conjunto completo es el producto de las probabilidades por punto. Como función de θ, este producto es la verosimilitud:
Multiplicar muchas pequeñas probabilidades subfluye a cero y es incómodo diferenciar. La solución es tomar el logaritmo: el logaritmo de un producto es una suma, y el logaritmo es creciente por lo que no mueve al maximizador. Maximizamos la verosimilitud logarítmica: