評価指標

データからの推論、推定、意思決定

「精度」は分類器をスコアする明らかな方法に思えるが、あなたに嘘をつくまでのことです。正しい評価指標はタスクと異なる間違いのコストに完全に依存する。混同行列から始める:真陽性(TP)、偽陽性(FP)、真陰性(TN)、偽陰性(FN)のカウント。すべての指標がこの4つの数から構築される。

2つの相補的な指標です。適合率 = TP/(TP+FP)は「陽性と判定したもののうち、本当に陽性だったのはいくらか?」を問う。再現率 = TP/(TP+FN)は「実際の陽性のうち、いくつ捉えたか?」を問う。

それらはトレードオフする:すべてを陽性と判定すれば再現率は1に達するが適合率は急落する;最も確実なケースのみ判定すれば適合率は急上昇するが再現率は下がる。F1スコアはそれらの調和平均としてバランスを取る:

機械学習における位置づけ間違った指標を選ぶとMLプロジェクトを静かに台無しにする。不均衡データで精度を最適化すると実際に気にするクラスを無視するモデルを生む。最適化する指標が得る振る舞いなので、訓練の前に適合率/再現率/F1/AUCで成功を定義し、偽陽性 vs 偽陰性の現実のコストに合わせる。
▶ 評価指標
← 交差検証MLのための統計的検定 →