变量之间的关系
从数据中进行推断、估计和决策
到目前为止,每个变量都是单独看的。真实问题通常同时涉及两个变量:学习时间是否与成绩相关?模型大小是否与准确率相关?第一个工具是散点图(每个观测一个点,x 对 y),它能让你一眼看出趋势。
要给线性趋势一个数字,使用 Pearson 相关系数 r。它从 −1 到 +1:+1 是完美向上的直线,−1 是完美向下的直线,0 表示完全没有线性关系。
在图中,点越紧贴拟合线,|r| 越接近 1。把点散开,r 就会漂向 0。
在机器学习中的应用相关分析是日常机器学习工具。高度相关的特征是冗余的;它们会增加线性模型的方差(多重共线性)并浪费容量。而在选择评估基准时,你会检查它是否与你真正关心的指标相关;一个便宜的代理指标只有在它能跟踪昂贵的真实指标时才有用。
▶ 变量之间的关系