데이터로부터의 추론, 추정, 의사결정
지금까지는 각 변수를 따로따로 다루었습니다. 그러나 실제 질문은 보통 두 변수를 동시에 다룹니다. 공부 시간이 성적과 관련이 있을까요? 모델 크기가 정확도와 관련이 있을까요? 가장 먼저 쓰는 도구는 산점도입니다. 관측값마다 점을 하나씩 찍어 x를 y에 대해 그리면, 눈으로 추세를 즉시 알아챌 수 있습니다.
선형 추세에 숫자를 붙이려면 피어슨 상관 계수 r을 사용합니다. r은 −1부터 +1까지의 값을 가집니다. +1은 완벽하게 상승하는 직선, −1은 완벽하게 하강하는 직선, 0은 선형 관계가 전혀 없음을 뜻합니다.
그림에서 점들이 적합된 직선에 바짝 붙을수록 |r|이 1에 가까워집니다. 점들을 넓게 흩뜨리면 r은 0 쪽으로 흘러갑니다.