데이터로부터의 추론, 추정, 의사결정
중심은 데이터가 어디에 있는지를 알려 주고, 퍼짐은 그 중심 주위로 얼마나 흔들리는지를 알려 줍니다. 두 데이터셋이 같은 평균을 가지면서도 완전히 다를 수 있습니다. 하나는 빽빽하게 모여 있고 다른 하나는 넓게 흩어져 있을 수 있는데, 바로 이 차이가 퍼짐입니다.
핵심 도구는 분산입니다. 평균으로부터의 제곱 거리를 평균 낸 값이지요. 그 제곱근인 표준편차는 데이터와 같은 단위를 가지므로 해석하기가 더 쉽습니다.
두 학급이 같은 퀴즈를 치고 두 반 모두 평균이 72이므로, 서류상으로는 동일해 보입니다. 그러나 A학급은 70, 72, 74를 기록했고(모두가 뭉쳐 있음), 반면 B학급은 50, 72, 94를 기록했습니다(넓게 흩어져 있음). 같은 중심값이지만 완전히 다른 이야기입니다: 산포도는 이들을 구별해주는 정확한 수치입니다.