데이터로부터의 추론, 추정, 의사결정
«정확도»는 분류기를 채점하는 당연한 방법처럼 들립니다. 그러다 어느 순간 우리를 속이기 전까지는 말이지요. 올바른 평가 메트릭은 전적으로 작업과 서로 다른 실수의 비용에 달려 있습니다. 출발점은 혼동 행렬입니다. 진양(TP), 위양(FP), 진음(TN), 위음(FN)의 개수를 세는 것이지요. 모든 메트릭은 이 네 숫자로부터 만들어집니다.
서로 보완하는 두 메트릭이 있습니다. 정밀도 = TP/(TP+FP)는 «내가 양성이라고 표시한 것들 중에 진짜로 양성인 것은 얼마나 되는가?»를 묻습니다. 재현율 = TP/(TP+FN)은 «실제 양성 중에서 내가 잡아낸 것은 얼마나 되는가?»를 묻습니다.
이 둘은 서로 맞바뀝니다. 모든 것을 양성으로 표시하면 재현율은 1이 되지만 정밀도는 곤두박질치고, 가장 확실한 경우만 표시하면 정밀도는 치솟지만 재현율은 떨어집니다. F1 점수는 이 둘을 조화 평균으로 균형 잡습니다.