확률의 공리 — 확률 · Mathematics for Machine Learning

«얼마나 일어날 법한가»에 어떻게 숫자를 매길 수 있을까요? 안드레이 콜모고로프는 확률 이론 전체가 단 세 가지 규칙 위에 세워진다는 것을 보였습니다. 우리가 앞으로 쓰게 될 다른 모든 공식은 이 세 규칙에서 따라 나오는 결과입니다.

말로 풀면 이렇습니다. 확률은 음이 아니고, 무언가가 일어날 확률은 정확히 1이며, 서로 겹칠 수 없는 사건의 확률은 그저 더하면 됩니다. 이것이 전부입니다. 확률이란 결국 총 질량 1을 여러 결과에 나누어 배분하는 방법입니다.

하나의 결과마다 한 조각씩, 여러 조각으로 잘린 파이 전체를 상상해 보세요. 어떤 조각도 음수 크기를 가질 수 없으며(이것이 P(A) ≥ 0 규칙입니다), 모든 조각을 합치면 정확히 P(Ω) = 1이 되어야 하므로 넘치거나 모자람 없이 전체 파이를 채워야 합니다. 사건의 확률을 묻는 것은 단지 그 사건에 속하는 조각들을 합산하는 것을 의미합니다.

머신러닝에서의 위치softmax 층은 원시 점수를 그 구조상 이 공리를 자동으로 만족하는 확률 분포로 바꿉니다. 각 출력은 음이 아니고(공리 1), 모든 클래스에 걸친 합이 1입니다(공리 2). 모델이 «P(고양이) = 0.7»이라고 보고하면, 나머지 0.3이 다른 모든 클래스에 나뉘어 배분됩니다. 이것이 바로 여사건 규칙이 작동하는 모습입니다. 점수를 확률로 다시 정규화할 때마다 우리는 콜모고로프의 공리를 강제하고 있는 셈입니다.