Rozkłady danych

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Pojedyncza miara środka i pojedyncza miara rozproszenia to tylko dwie liczby. Pełny kształt danych (ich rozkład) mówi znacznie więcej. Najszybszym sposobem, by go zobrazować, jest histogram: w tym celu dzielimy zakres na przedziały i liczymy, ile wartości wpada do każdego z nich. Wygładzoną wersją histogramu jest z kolei wykres gęstości.

Gdy już znasz kształt rozkładu, kluczowe stają się dwa pytania: czy jest on symetryczny czy asymetryczny, oraz czy ma grube czy cienkie ogony?

Skośność (asymetria) mierzy odchylenie od symetrii. Rozkład prawostronnie skośny (o asymetrii dodatniej) ma długi ogon ciągnący się w prawo, co jest typowe dla zmiennych takich jak dochody, czasy oczekiwania czy rozmiary plików. Rozkład lewostronnie skośny ma ogon wyciągnięty w lewo. W przypadku rozkładu prawostronnie skośnego średnia leży zazwyczaj na prawo od mediany, ponieważ jest „pociągnięta” przez ten długi ogon.

Gdzie to występuje w MLKształt rozkładu ma realny wpływ na decyzje projektowe w ML. Rozkłady aktywacji wewnątrz sieci mogą z czasem dryfować i wykształcać grube ogony, co uzasadnia stosowanie technik takich jak batch normalization czy layer normalization. Z kolei rozkład straty dla poszczególnych batchy ujawnia, czy model myli się równomiernie na wszystkich danych, czy też gorzej radzi sobie z mniejszością trudnych…

▶ Rozkłady danych

← Miary rozproszenia Relacje między zmiennymi →