데이터로부터의 추론, 추정, 의사결정
하나의 중심과 하나의 퍼짐은 그저 두 개의 숫자일 뿐입니다. 데이터의 전체 형태, 즉 분포는 훨씬 더 많은 정보를 담고 있습니다. 형태를 가장 빠르게 보는 방법은 히스토그램입니다. 범위를 여러 구간으로 자른 뒤 각 구간에 몇 개의 값이 들어가는지 세는 것이지요. 이를 매끄럽게 다듬은 형태가 밀도 그림입니다.
형태를 볼 수 있게 되면 두 가지 질문이 중요해집니다. 대칭인가, 아니면 치우쳐 있는가? 그리고 꼬리가 무거운가, 가벼운가?
왜도는 비대칭의 정도를 측정합니다. 오른쪽으로 치우친(양의) 분포는 오른쪽으로 길게 뻗은 꼬리를 가집니다. 소득, 대기 시간, 파일 크기 등이 그렇습니다. 왼쪽으로 치우친 분포는 왼쪽으로 꼬리가 늘어집니다. 오른쪽으로 치우친 형태에서는 꼬리에 끌려 평균이 중앙값의 오른쪽에 자리합니다.