두 변수가 함께 움직일까요? 공분산이 이를 측정합니다. 각 변수가 자기 평균에서 벗어난 편차들의 곱을 평균낸 값입니다. 두 변수가 동시에 평균보다 위에 있거나(또는 둘 다 아래에 있는) 경향이 있으면 곱이 양수가 되어 공분산도 양수가 됩니다.
공분산이 양수이면 두 변수가 함께 오릅니다. 음수이면 한쪽이 오를 때 다른 쪽이 내려갑니다. 0이면 어느 쪽으로도 선형 경향이 없다는 뜻입니다. 다만 공분산은 단위가 어색하게 섞여 있고 크기가 척도에 따라 달라지기 때문에, 그 자체만으로는 해석하기 어렵습니다.
공분산을 두 표준편차로 나누면 상관 계수 ρ가 됩니다. 항상 −1과 +1 사이에 놓이는 깔끔한 숫자입니다:
머신러닝에서의 위치공분산 행렬 Σᵢⱼ = Cov(Xᵢ, Xⱼ)은 특징 벡터의 모든 쌍별 공분산을 담습니다. PCA는 이 행렬을 대각화하여 분산이 가장 큰 방향들을 찾아냅니다. 입력 특징들이 서로 강하게 상관되어 있으면 다중공선성과 불안정한 가중치를 일으킵니다. 그리고 트랜스포머의 어텐션 맵에 나타나는 «무엇이 무엇에 주의하는가» 패턴은, 느슨하게 보면 토큰들에 걸쳐 학습된 상관 구조라고 할 수 있습니다.