데이터의 분포 — 통계학 · Mathematics for Machine Learning

하나의 중심과 하나의 퍼짐은 그저 두 개의 숫자일 뿐입니다. 데이터의 전체 형태, 즉 분포는 훨씬 더 많은 정보를 담고 있습니다. 형태를 가장 빠르게 보는 방법은 히스토그램입니다. 범위를 여러 구간으로 자른 뒤 각 구간에 몇 개의 값이 들어가는지 세는 것이지요. 이를 매끄럽게 다듬은 형태가 밀도 그림입니다.

형태를 볼 수 있게 되면 두 가지 질문이 중요해집니다. 대칭인가, 아니면 치우쳐 있는가? 그리고 꼬리가 무거운가, 가벼운가?

왜도는 비대칭의 정도를 측정합니다. 오른쪽으로 치우친(양의) 분포는 오른쪽으로 길게 뻗은 꼬리를 가집니다. 소득, 대기 시간, 파일 크기 등이 그렇습니다. 왼쪽으로 치우친 분포는 왼쪽으로 꼬리가 늘어집니다. 오른쪽으로 치우친 형태에서는 꼬리에 끌려 평균이 중앙값의 오른쪽에 자리합니다.

머신러닝에서의 위치분포의 형태는 실제 ML 결정을 이끕니다. 신경망 내부의 활성화 분포는 시간이 지나면서 변하고 무거운 꼬리를 발달시킬 수 있는데, 바로 이 때문에 배치/레이어 정규화가 존재합니다. 배치별 손실 분포는 모델이 고르게 실패하는지, 아니면 무거운 꼬리에 해당하는 소수의 어려운 예시에서 쩔쩔매는지를 드러냅니다. 그리고 무거운 꼬리야말로 강건한 손실(Huber)과 그래디언트 클리핑이 표준 관행이 된 이유입니다.