Оценка максимального правдоподобия — Статистика

Вывод, оценивание и принятие решений по данным

Если нужно выбрать одно значение параметра θ, самое естественное правило: выбрать θ, который делает наблюдённые данные наиболее вероятными. Это оценка максимального правдоподобия (MLE), принцип обучения почти каждой модели в ML.

Для данных x₁, …, xₙ, предполагаемых независимыми, вероятность всей выборки — произведение вероятностей точек. Как функция θ, это правдоподобие:

Умножение многих малых вероятностей уходит в ноль и неудобно дифференцировать. Решение — взять логарифм: лог произведения — сумма, и лог возрастает, не сдвигая максимум. Максимизируем лог-правдоподобие:

Где это встречается в MLОбучение модели — максимальное правдоподобие. Минимизация кросс-энтропии — в точности максимизация лог-правдоподобия меток; кросс-энтропия — отрицательное лог-правдоподобие. Минимизация среднеквадратичной ошибки — MLE при гауссовом шуме. Когда вызываете .backward() и шагаете оптимизатором, вы карабкаетесь по поверхности лог-правдоподобия, только в миллионах измерений.