퍼짐의 척도

데이터로부터의 추론, 추정, 의사결정

중심은 데이터가 어디에 있는지를 알려 주고, 퍼짐은 그 중심 주위로 얼마나 흔들리는지를 알려 줍니다. 두 데이터셋이 같은 평균을 가지면서도 완전히 다를 수 있습니다. 하나는 빽빽하게 모여 있고 다른 하나는 넓게 흩어져 있을 수 있는데, 바로 이 차이가 퍼짐입니다.

핵심 도구는 분산입니다. 평균으로부터의 제곱 거리를 평균 낸 값이지요. 그 제곱근인 표준편차는 데이터와 같은 단위를 가지므로 해석하기가 더 쉽습니다.

두 학급이 같은 퀴즈를 치고 두 반 모두 평균이 72이므로, 서류상으로는 동일해 보입니다. 그러나 A학급은 70, 72, 74를 기록했고(모두가 뭉쳐 있음), 반면 B학급은 50, 72, 94를 기록했습니다(넓게 흩어져 있음). 같은 중심값이지만 완전히 다른 이야기입니다: 산포도는 이들을 구별해주는 정확한 수치입니다.

머신러닝에서의 위치퍼짐은 ML의 신뢰성 곳곳에 등장합니다. 미니배치에 대한 그래디언트 분산은 각 훈련 단계가 얼마나 잡음이 많은지를 좌우하는데, 분산이 크면 하강이 떨립니다. 또한 모델의 정확도를 보고할 때 여러 무작위 시드에 걸친 표준편차는 «+0.3%» 개선이 진짜인지 단지 잡음인지를 알려 줍니다. 퍼짐 없이 보고된 결과는 절반짜리 결과일 뿐입니다.
▶ 퍼짐의 척도
← 중심의 척도데이터의 분포 →