결합 분포

불확실성의 수학

지금까지는 각 확률 변수가 따로 떨어져 살았습니다. 하지만 흥미로운 질문은 관계에 관한 것입니다. 키와 몸무게, 이미지와 그 레이블처럼 말입니다. 결합 분포 p(x, y)는 모든 값의 쌍에 대한 확률을 한꺼번에 줍니다. 두 개(이상)의 변수가 함께 어떻게 행동하는지에 대한 완전한 기술입니다.

이산 변수의 경우 격자를 떠올려 보세요. 행은 X의 값, 열은 Y의 값이고, 각 칸은 그 조합이 일어날 확률을 담습니다. 모든 칸은 음이 아니고 합이 1이 됩니다. 같은 공리를 이제 2차원에서 쓰는 셈입니다. 연속 변수의 경우에는 밀도 f(x, y)가 되고, 확률은 2차원 곡면 아래의 부피로 나타납니다.

키와 몸무게로 사람들을 동시에 분류한 표를 상상해 보세요. 키가 작고 가벼운 사람이 한 셀에, 키가 크고 무거운 사람이 다른 셀에 있으며, 모든 셀의 숫자는 그 쌍이 얼마나 흔한지를 나타냅니다. 그 전체 쌍의 격자가 결합 분포 p(x, y)입니다. 이는 키나 몸무게 하나씩만 설명하는 것이 아니라 함께 설명합니다. 모든 셀을 음수가 아니고 합이 1이 되도록 채우면, 두 특성이 어떻게 함께 이동하는지에 대한 전체 그림을 포착한 것입니다.

머신러닝에서의 위치지도 학습은 입력과 레이블의 결합 분포 p(x, y), 또는 그 일부를 모델링하는 일입니다. 생성 모델은 전체 결합 분포 p(x, y)를 학습하여 새로운 데이터를 합성하고, 판별 모델은 예측에 필요한 조건부 분포 p(y | x)만 학습합니다. 생성 모델과 판별 모델을 가르는 구분 전체가 결합 분포 중 얼마나를 모델링할 것인가에 관한 것입니다.

▶ 결합 분포

← 다변수 가우시안 주변 분포 →