Inferentie, schatting en besluitvorming uit data
Voordat je gegevens modelleert, moet je ze eerlijk samenvatten. De meest basale samenvatting is één getal dat de vraag "waar liggen de gegevens gecentreerd?" beantwoordt. Er zijn drie klassieke antwoorden, en ze zijn het niet altijd eens, en juist daarom moet je ze alle drie kennen.
Het gemiddelde is het balanspunt: tel elke waarde op, deel door het aantal. De mediaan is de middelste waarde nadat je ze gesorteerd hebt. De modus is simpelweg de meest voorkomende waarde.
Stel je de vraagprijzen voor in één korte straat, in honderdduizenden: 3, 4, 4, 5, 30. Vier gewone huizen en één landhuis aan het water. De gemiddelde prijs is 46/5 = 9.2, maar geen enkel gewoon huis kost ook maar iets in die buurt. De mediaan, de middelste waarde na sorteren, is slechts 4 en geeft het typische huis eerlijk weer, omdat het eenzame landhuis het midden van de lijst niet erg ver kan verschuiven.