Estimação por Máxima Verosimilhança

Inferência, estimação e tomada de decisão a partir de dados

Se precisas de escolher um único valor para o parâmetro θ, a regra mais natural é esta: escolhe o θ que torna mais provável os dados que de facto observaste. Esta é a estimação por máxima verosimilhança (MLE), o princípio por trás do treino de quase todos os modelos em ML.

Dados x₁, …, xₙ supostos independentes, a probabilidade de toda a amostra é o produto das probabilidades de cada ponto. Vista como função de θ, esse produto é a verosimilhança:

Multiplicar muitas probabilidades pequenas sofre underflow até zero e é incómodo de diferenciar. A solução é tomar o logaritmo: o log de um produto é uma soma, e o log é crescente, de modo que não desloca o ponto de máximo. Maximizamos a log-verosimilhança:

Onde isto aparece no MLTreinar um modelo é máxima verosimilhança. Minimizar a perda de entropia cruzada (cross-entropy) é exatamente maximizar a log-verosimilhança dos rótulos; a entropia cruzada é a log-verosimilhança negativa. Minimizar o erro quadrático médio é MLE sob a suposição de ruído gaussiano. Quando chamas .backward() e dás um passo no otimizador, estás a subir pela superfície da log-verosimilhança acima, só…

▶ Estimação por Máxima Verosimilhança

← Parâmetros e Estimadores MLE para Distribuições Comuns →