Wnioskowanie, estymacja i podejmowanie decyzji z danych
Do tej pory rozpatrywaliśmy każdą zmienną oddzielnie. Tymczasem prawdziwe problemy z reguły angażują dwie zmienne jednocześnie: czy czas poświęcony na naukę przekłada się na oceny? Czy rozmiar modelu wpływa na jego dokładność? Podstawowym narzędziem jest w takich przypadkach wykres rozrzutu (wykres punktowy, na którym jeden punkt odpowiada jednej obserwacji o współrzędnych x i y), który pozwala natychmiast dostrzec wizualny trend.
Aby wyrazić trend liniowy w postaci liczbowej, stosuje się współczynnik korelacji liniowej Pearsona (r). Przyjmuje on wartości od −1 do +1: wartość +1 oznacza idealną dodatnią zależność liniową (punkty układają się wzdłuż rosnącej prostej), −1 to idealna zależność ujemna (prosta malejąca), a 0 oznacza całkowity brak zależności liniowej.
Jak widać na powyższym rysunku, im ściślej punkty przylegają do dopasowanej prostej, tym bliższa jedności jest wartość |r|. Im bardziej są rozproszone, tym r jest bliższe zera.