Wnioskowanie, estymacja i podejmowanie decyzji z danych
Zanim zamodelujesz dane, musisz je rzetelnie podsumować. Najbardziej podstawowym podsumowaniem jest pojedyncza liczba odpowiadająca na pytanie: „wokół jakiej wartości skupione są dane?”. Istnieją trzy klasyczne miary i nie zawsze dają ten sam wynik. Właśnie dlatego warto znać je wszystkie.
Średnia to punkt równowagi: suma wszystkich wartości podzielona przez ich liczbę. Mediana to wartość środkowa w posortowanym zbiorze danych. Moda (dominanta) to najczęściej występująca wartość.
Wyobraź sobie ceny wywoławcze na jednej krótkiej ulicy, w setkach tysięcy: 3, 4, 4, 5, 30. Cztery zwykłe domy i jedna rezydencja nad wodą. Średnia cena to 46/5 = 9.2, jednak żaden ze zwykłych domów nie kosztuje nawet w przybliżeniu tyle. Mediana, czyli środkowa wartość po posortowaniu, wynosi zaledwie 4 i rzetelnie oddaje cenę typowego domu, ponieważ pojedyncza rezydencja nie jest w stanie pociągnąć środka listy zbyt daleko.