Inferência, estimação e tomada de decisão a partir de dados
Se você precisa escolher um único valor para o parâmetro θ, a regra mais natural é esta: escolha o θ que torna mais provável os dados que você de fato observou. Essa é a estimação por máxima verossimilhança (MLE), o princípio por trás do treinamento de quase todo modelo em ML.
Dados x₁, …, xₙ supostos independentes, a probabilidade de toda a amostra é o produto das probabilidades de cada ponto. Vista como função de θ, esse produto é a verossimilhança:
Multiplicar muitas probabilidades pequenas sofre underflow até zero e é incômodo de diferenciar. A solução é tomar o logaritmo: o log de um produto é uma soma, e o log é crescente, de modo que não desloca o ponto de máximo. Maximizamos a log-verossimilhança: