베이지안 추정 — 통계학 · Mathematics for Machine Learning

MLE는 «어느 하나의 θ가 데이터를 가장 잘 설명하는가?»를 묻습니다. 베이지안 추정은 더 풍부한 질문을 던집니다. «데이터가 주어졌을 때, θ에 대한 나의 전체 믿음은 무엇인가?» 하나의 숫자 대신 분포 전체를 얻으며, 미리 알고 있던 것까지 함께 녹여 넣을 수 있습니다.

재료는 세 가지입니다. 사전 분포 p(θ)는 데이터를 보기 전의 믿음입니다. 가능도 p(x|θ)는 각 θ가 데이터를 얼마나 잘 설명하는지를 나타냅니다(MLE에서와 같은 대상입니다). 베이즈 규칙은 이 둘을 결합하여 사후 분포 p(θ|x)로 만듭니다.

이렇게 읽으면 됩니다. 사후 믿음 = θ가 데이터를 얼마나 잘 설명하는지를, θ가 애초에 얼마나 그럴듯했는지로 가중한 것. 데이터가 많아질수록 가능도가 지배하게 되어 사전 분포의 영향은 씻겨 나갑니다.

머신러닝에서의 위치정규화가 바로 이 아이디어를 일상적으로 쓰는 예입니다. 손실에 L2 벌점 λ‖β‖²를 더하는 것은, 가중치에 가우시안 사전 분포를 둔 MAP 추정과 정확히 같습니다. 이 사전 분포는 «0에 가까운 가중치가 더 그럴듯하다»고 말합니다. L1 벌점을 더하는 것은 라플라스 사전 분포에 해당하며, 희소한 가중치를 선호합니다. 가중치 감쇠는 임시방편이 아니라, 이름만 다른 베이지안 사전 분포입니다.