변수 간 관계

데이터로부터의 추론, 추정, 의사결정

지금까지는 각 변수를 따로따로 다루었습니다. 그러나 실제 질문은 보통 두 변수를 동시에 다룹니다. 공부 시간이 성적과 관련이 있을까요? 모델 크기가 정확도와 관련이 있을까요? 가장 먼저 쓰는 도구는 산점도입니다. 관측값마다 점을 하나씩 찍어 x를 y에 대해 그리면, 눈으로 추세를 즉시 알아챌 수 있습니다.

선형 추세에 숫자를 붙이려면 피어슨 상관 계수 r을 사용합니다. r은 −1부터 +1까지의 값을 가집니다. +1은 완벽하게 상승하는 직선, −1은 완벽하게 하강하는 직선, 0은 선형 관계가 전혀 없음을 뜻합니다.

그림에서 점들이 적합된 직선에 바짝 붙을수록 |r|이 1에 가까워집니다. 점들을 넓게 흩뜨리면 r은 0 쪽으로 흘러갑니다.

머신러닝에서의 위치상관 분석은 일상적으로 쓰는 ML 도구입니다. 서로 강하게 상관된 특징은 중복이며, 선형 모델에서 분산을 부풀리고(다중공선성) 모델의 용량을 낭비합니다. 또한 평가 벤치마크를 고를 때는 그것이 실제로 우리가 신경 쓰는 지표와 상관되는지를 확인합니다. 값싼 대리 지표는 값비싼 진짜 지표를 잘 따라갈 때에만 쓸모가 있습니다.

▶ 변수 간 관계

← 데이터의 분포 모수와 추정량 →