评估指标

从数据中进行推断、估计和决策

“准确率”听起来像是给分类器打分的最直观方式——直到它开始误导你。正确的评估指标完全取决于具体任务以及不同错误所付出的代价。先从混淆矩阵说起：它统计真正例（TP）、假正例（FP）、真负例（TN）和假负例（FN）的数量。所有指标都建立在这四个数字之上。

两个互补的指标。精确率 = TP/(TP+FP) 回答的是“在我标记为正的样本中，有多少真的是正的？”召回率 = TP/(TP+FN) 回答的是“在所有真正的正例中，我抓住了多少？”

它们之间存在权衡：把所有样本都标为正，召回率达到 1，但精确率会暴跌；只标记最有把握的样本，精确率飙升，召回率却下降。F1 分数通过取二者的调和平均来加以平衡：

在机器学习中的应用选错指标会悄无声息地毁掉机器学习项目。在不平衡数据上优化准确率，会得到一个忽视你真正关心的那个类的模型。你优化什么指标，就会得到什么行为，所以要在训练之前就用精确率/召回率/F1/AUC 来定义成功，并使其与现实中假正例对比假负例的真实代价相匹配。