Връзки между променливи — Статистика

Досега всяка променлива се разглеждаше самостоятелно. Истинските въпроси обаче обикновено включват две променливи едновременно: свързано ли е времето за учене с оценките? Свързан ли е размерът на модела с точността? Първият инструмент за това е диаграмата на разсейване (scatter plot) – по една точка за всяко наблюдение (x спрямо y), която позволява на окото ви веднага да забележи дадена тенденция.

За да изразите числено линейната тенденция, използвайте коефициента на корелация на Пиърсън r. Той варира от −1 до +1: +1 означава перфектна възходяща права, −1 означава перфектна низходяща права, а 0 означава липса на линейна връзка.

На фигурата, колкото по-плътно точките се доближават до напаснатата права, толкова по-близо е |r| до 1. Ако ги разпръснете, r ще се приближи към 0.

Къде се използва това в MLКорелационният анализ е ежедневен инструмент в машинното обучение. Силно корелираните признаци (features) са излишни; те увеличават дисперсията в линейните модели (мултиколинеарност) и хабят капацитет. А когато избирате бенчмарк за оценка, проверявате дали той корелира с метриката, която действително ви интересува; един по-достъпен прокси показател е полезен само ако следва точно същинската скъпа…