불확실성의 수학
실제 데이터는 하나의 숫자인 경우가 드뭅니다. 대개 벡터입니다. 다변수 가우시안 N(μ, Σ)는 종 모양 곡선을 여러 차원으로 확장한 것입니다. 평균은 벡터 μ ∈ ℝⁿ(데이터 구름의 중심)이 되고, 분산은 공분산 행렬 Σ(구름의 형태와 기울기)가 됩니다.
지수 안의 식은 z-점수를 일반화합니다. (x−μ)ᵀΣ⁻¹(x−μ)는 제곱 마할라노비스 거리로, 데이터 자체의 퍼짐을 단위로 삼아 잰 평균으로부터의 거리입니다. 밀도가 같은 점들은 타원을 이룹니다(고차원에서는 타원체가 됩니다). 공분산 행렬이 이 타원의 크기, 늘어난 정도, 기울기를 결정합니다.
Σ의 대각 성분은 좌표별 분산이고, 비대각 성분은 공분산으로, 좌표들이 함께 오르내리는지를 알려줍니다. 대각 행렬 Σ는 축에 정렬된 타원(서로 독립인 좌표)을 만들고, 비대각 성분이 타원을 기울입니다. Σ는 반드시 양의 준정부호여야 합니다. 어느 방향으로도 음의 분산이라는 것은 존재할 수 없기 때문입니다.