评估指标

从数据中进行推断、估计和决策

“准确率”听起来像是给分类器打分的最直观方式——直到它开始误导你。正确的评估指标完全取决于具体任务以及不同错误所付出的代价。先从混淆矩阵说起:它统计真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)的数量。所有指标都建立在这四个数字之上。

两个互补的指标。精确率 = TP/(TP+FP) 回答的是“在我标记为正的样本中,有多少真的是正的?”召回率 = TP/(TP+FN) 回答的是“在所有真正的正例中,我抓住了多少?”

它们之间存在权衡:把所有样本都标为正,召回率达到 1,但精确率会暴跌;只标记最有把握的样本,精确率飙升,召回率却下降。F1 分数通过取二者的调和平均来加以平衡:

在机器学习中的应用选错指标会悄无声息地毁掉机器学习项目。在不平衡数据上优化准确率,会得到一个忽视你真正关心的那个类的模型。你优化什么指标,就会得到什么行为,所以要在训练之前就用精确率/召回率/F1/AUC 来定义成功,并使其与现实中假正例对比假负例的真实代价相匹配。
▶ 评估指标
← 交叉验证机器学习的统计检验 →