Если нужно выбрать одно значение параметра θ, самое естественное правило: выбрать θ, который делает наблюдённые данные наиболее вероятными. Это оценка максимального правдоподобия (MLE), принцип обучения почти каждой модели в ML.
Для данных x₁, …, xₙ, предполагаемых независимыми, вероятность всей выборки — произведение вероятностей точек. Как функция θ, это правдоподобие:
Умножение многих малых вероятностей уходит в ноль и неудобно дифференцировать. Решение — взять логарифм: лог произведения — сумма, и лог возрастает, не сдвигая максимум. Максимизируем лог-правдоподобие:
Где это встречается в MLОбучение модели — максимальное правдоподобие. Минимизация кросс-энтропии — в точности максимизация лог-правдоподобия меток; кросс-энтропия — отрицательное лог-правдоподобие. Минимизация среднеквадратичной ошибки — MLE при гауссовом шуме. Когда вызываете .backward() и шагаете оптимизатором, вы карабкаетесь по поверхности лог-правдоподобия, только в миллионах измерений.