최대 가능도 추정 — 통계학 · Mathematics for Machine Learning

모수 θ에 대해 하나의 값을 골라야 한다면, 가장 자연스러운 규칙은 이것입니다. 우리가 실제로 관측한 데이터를 가장 확률 높게 만드는 θ를 고른다. 이것이 최대 가능도 추정(MLE)으로, ML에서 거의 모든 모델을 훈련하는 원리입니다.

서로 독립이라고 가정한 데이터 x₁, …, xₙ이 주어지면, 전체 표본의 확률은 각 점별 확률의 곱입니다. 이 곱을 θ의 함수로 본 것이 가능도입니다.

작은 확률을 여러 개 곱하면 언더플로우가 일어나 0이 되어 버리고, 미분하기도 까다롭습니다. 해결책은 로그를 취하는 것입니다. 곱의 로그는 합이 되고, 로그는 증가 함수이므로 최대가 되는 지점을 바꾸지 않습니다. 그래서 우리는 로그 가능도를 최대화합니다.

머신러닝에서의 위치모델을 훈련하는 것이 곧 최대 가능도입니다. 교차 엔트로피 손실을 최소화하는 것은 정확히 레이블의 로그 가능도를 최대화하는 것과 같습니다. 교차 엔트로피가 바로 음의 로그 가능도이기 때문입니다. 평균 제곱 오차를 최소화하는 것은 가우시안 잡음을 가정했을 때의 MLE입니다. .backward()를 호출하고 옵티마이저를 한 단계 진행시킬 때, 우리는 위와 같은 로그 가능도 표면을 오르고 있는 것입니다. 단지 수백만 차원에서 그렇게 할 뿐이지요.