Inferência, estimação e tomada de decisão a partir de dados
Se precisas de escolher um único valor para o parâmetro θ, a regra mais natural é esta: escolhe o θ que torna mais provável os dados que de facto observaste. Esta é a estimação por máxima verosimilhança (MLE), o princípio por trás do treino de quase todos os modelos em ML.
Dados x₁, …, xₙ supostos independentes, a probabilidade de toda a amostra é o produto das probabilidades de cada ponto. Vista como função de θ, esse produto é a verosimilhança:
Multiplicar muitas probabilidades pequenas sofre underflow até zero e é incómodo de diferenciar. A solução é tomar o logaritmo: o log de um produto é uma soma, e o log é crescente, de modo que não desloca o ponto de máximo. Maximizamos a log-verosimilhança: