変数間の関係
データからの推論、推定、意思決定
これまで各変数は単独だった。実際の問いは通常2つの変数を一度に含む:勉強時間は成績に関係するか?モデルサイズは精度に関係するか?最初のツールは散布図です(観測ごとに1点、x対y)、目が傾向を即座に見つけることを許す。
線形な傾向に数を置くには、ピアソン相関係数rを使う。−1から+1に及ぶ:+1は完全な右上がりの直線、−1は完全な右下がりの直線、0は線形関係なしです。
図で、点がフィットした直線に密着するほど|r|が1に近い。点を広げるとrは0に向かう。
機械学習における位置づけ相関分析は日常のMLツールです。高く相関した特徴は冗長で;線形モデルの分散を膨らませ(多重共線性)容量を無駄にする。そして評価ベンチマークを選ぶとき、それが実際に気にする指標と相関するかを確認する;安いプロキシ指標は高い本物の指標を追跡するときにのみ有用。
▶ 変数間の関係