Байесовское оценивание — Статистика

Вывод, оценивание и принятие решений по данным

MLE спрашивает «какой единственный θ лучше объясняет данные?» Байесовское оценивание задаёт более богатый вопрос: «при данных, каково моё полное мнение о θ?» Вместо одного числа — целое распределение, и можно включить то, что знали заранее.

Три ингредиента. Априорное p(θ) — мнение до данных. Правдоподобие p(x|θ) — насколько хорошо каждый θ объясняет данные (тот же объект, что в MLE). Правило Байеса объединяет в апостериорное p(θ|x):

Читается: апостериорное мнение = насколько хорошо θ объясняет данные, взвешенное на правдоподобие θ изначально. Больше данных — правдоподобие доминирует и смывает априорное.

Где это встречается в MLРегуляризация — эта идея в повседневном использовании. Добавление L2-штрафа λ‖β‖² к потере — в точности MAP-оценивание с гауссовым априорным на веса. Априорное говорит «веса около нуля правдоподобнее». L1-штраф соответствует априорному Лапласа, предпочитающему разреженные веса. Weight decay — не хак, а байесовское априорное под другим именем.