Estimação por Máxima Verossimilhança

Inferência, estimação e tomada de decisão a partir de dados

Se você precisa escolher um único valor para o parâmetro θ, a regra mais natural é esta: escolha o θ que torna mais provável os dados que você de fato observou. Essa é a estimação por máxima verossimilhança (MLE), o princípio por trás do treinamento de quase todo modelo em ML.

Dados x₁, …, xₙ supostos independentes, a probabilidade de toda a amostra é o produto das probabilidades de cada ponto. Vista como função de θ, esse produto é a verossimilhança:

Multiplicar muitas probabilidades pequenas sofre underflow até zero e é incômodo de diferenciar. A solução é tomar o logaritmo: o log de um produto é uma soma, e o log é crescente, de modo que não desloca o ponto de máximo. Maximizamos a log-verossimilhança:

Onde isso aparece no MLTreinar um modelo é máxima verossimilhança. Minimizar a perda de entropia cruzada (cross-entropy) é exatamente maximizar a log-verossimilhança dos rótulos; a entropia cruzada é a log-verossimilhança negativa. Minimizar o erro quadrático médio é MLE sob a suposição de ruído gaussiano. Quando você chama .backward() e dá um passo no otimizador, você está subindo pela superfície da…

▶ Estimação por Máxima Verossimilhança

← Parâmetros e Estimadores MLE para Distribuições Comuns →