Relacje między zmiennymi

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Do tej pory rozpatrywaliśmy każdą zmienną oddzielnie. Tymczasem prawdziwe problemy z reguły angażują dwie zmienne jednocześnie: czy czas poświęcony na naukę przekłada się na oceny? Czy rozmiar modelu wpływa na jego dokładność? Podstawowym narzędziem jest w takich przypadkach wykres rozrzutu (wykres punktowy, na którym jeden punkt odpowiada jednej obserwacji o współrzędnych x i y), który pozwala natychmiast dostrzec wizualny trend.

Aby wyrazić trend liniowy w postaci liczbowej, stosuje się współczynnik korelacji liniowej Pearsona (r). Przyjmuje on wartości od −1 do +1: wartość +1 oznacza idealną dodatnią zależność liniową (punkty układają się wzdłuż rosnącej prostej), −1 to idealna zależność ujemna (prosta malejąca), a 0 oznacza całkowity brak zależności liniowej.

Jak widać na powyższym rysunku, im ściślej punkty przylegają do dopasowanej prostej, tym bliższa jedności jest wartość |r|. Im bardziej są rozproszone, tym r jest bliższe zera.

Gdzie to występuje w MLAnaliza korelacji to jedno z podstawowych, codziennych narzędzi w uczeniu maszynowym. Silnie skorelowane cechy bywają redundantne; zwiększają one wariancję w modelach liniowych (co prowadzi do zjawiska współliniowości) i ograniczają ostateczną moc modelu. Ponadto, wybierając benchmark upewniasz się, czy rzeczywiście koreluje on z metryką docelową, na której zależy ci najbardziej. Tańsza i szybsza…

▶ Relacje między zmiennymi

← Rozkłady danych Parametry i estymatory →