평가 메트릭

데이터로부터의 추론, 추정, 의사결정

«정확도»는 분류기를 채점하는 당연한 방법처럼 들립니다. 그러다 어느 순간 우리를 속이기 전까지는 말이지요. 올바른 평가 메트릭은 전적으로 작업과 서로 다른 실수의 비용에 달려 있습니다. 출발점은 혼동 행렬입니다. 진양(TP), 위양(FP), 진음(TN), 위음(FN)의 개수를 세는 것이지요. 모든 메트릭은 이 네 숫자로부터 만들어집니다.

서로 보완하는 두 메트릭이 있습니다. 정밀도 = TP/(TP+FP)는 «내가 양성이라고 표시한 것들 중에 진짜로 양성인 것은 얼마나 되는가?»를 묻습니다. 재현율 = TP/(TP+FN)은 «실제 양성 중에서 내가 잡아낸 것은 얼마나 되는가?»를 묻습니다.

이 둘은 서로 맞바뀝니다. 모든 것을 양성으로 표시하면 재현율은 1이 되지만 정밀도는 곤두박질치고, 가장 확실한 경우만 표시하면 정밀도는 치솟지만 재현율은 떨어집니다. F1 점수는 이 둘을 조화 평균으로 균형 잡습니다.

머신러닝에서의 위치잘못된 메트릭을 고르면 ML 프로젝트가 소리 없이 망가집니다. 불균형 데이터에서 정확도를 최적화하면 정작 우리가 신경 쓰는 클래스를 무시하는 모델이 나옵니다. 최적화하는 메트릭이 곧 얻게 되는 행동입니다. 그러니 훈련을 시작하기 전에 위양과 위음의 실제 비용에 맞춰 정밀도/재현율/F1/AUC로 성공을 정의하세요.

▶ 평가 메트릭

← 교차 검증 ML을 위한 통계 검정 →