Извод, оценка и вземане на решения от данни
Досега всяка променлива се разглеждаше самостоятелно. Истинските въпроси обаче обикновено включват две променливи едновременно: свързано ли е времето за учене с оценките? Свързан ли е размерът на модела с точността? Първият инструмент за това е диаграмата на разсейване (scatter plot) – по една точка за всяко наблюдение (x спрямо y), която позволява на окото ви веднага да забележи дадена тенденция.
За да изразите числено линейната тенденция, използвайте коефициента на корелация на Пиърсън r. Той варира от −1 до +1: +1 означава перфектна възходяща права, −1 означава перфектна низходяща права, а 0 означава липса на линейна връзка.
На фигурата, колкото по-плътно точките се доближават до напаснатата права, толкова по-близо е |r| до 1. Ако ги разпръснете, r ще се приближи към 0.