중심의 척도 — 통계학 · Mathematics for Machine Learning

데이터를 모델링하기 전에 먼저 정직하게 요약해야 합니다. 가장 기본적인 요약은 «데이터의 중심이 어디인가?»라는 질문에 답하는 하나의 숫자입니다. 여기에는 세 가지 고전적인 답이 있는데, 이들이 항상 일치하지는 않기 때문에 세 가지를 모두 알아 두어야 합니다.

평균은 균형점입니다. 모든 값을 더한 뒤 개수로 나눕니다. 중앙값은 값을 정렬했을 때 한가운데 오는 값이고, 최빈값은 가장 자주 나타나는 값입니다.

한 짧은 거리의 호가(단위: 10만)를 상상해 보세요: 3, 4, 4, 5, 30. 4채의 평범한 집과 1채의 해안가 저택입니다. 평균 가격은 46/5 = 9.2이지만, 단 한 채의 평범한 집도 이 가격에 근접하지 않습니다. 정렬 후의 중간값인 중앙값은 단지 4이며, 유일한 저택 하나가 목록의 중간을 멀리 끌어올릴 수 없기 때문에 일반적인 주택의 가격을 정직하게 나타냅니다.

머신러닝에서의 위치여러분이 보고하는 모든 손실 지표는 테스트 세트에 대한 중심의 척도입니다. «평균 제곱 오차»는 제곱 오차의 평균인데, 평균은 민감하기 때문에 몇 개의 치명적인 예측이 전체를 지배해 버립니다. 무거운 꼬리가 의심된다면 중앙값 오차도 함께 보고하세요. 중앙값은 최악의 몇몇이 평균에 끼치는 영향이 아니라, 전형적인 예시가 실제로 겪는 바를 알려 줍니다.