Centrummaten

Inferentie, schatting en besluitvorming uit data

Voordat je gegevens modelleert, moet je ze eerlijk samenvatten. De meest basale samenvatting is één getal dat de vraag "waar liggen de gegevens gecentreerd?" beantwoordt. Er zijn drie klassieke antwoorden, en ze zijn het niet altijd eens, en juist daarom moet je ze alle drie kennen.

Het gemiddelde is het balanspunt: tel elke waarde op, deel door het aantal. De mediaan is de middelste waarde nadat je ze gesorteerd hebt. De modus is simpelweg de meest voorkomende waarde.

Stel je de vraagprijzen voor in één korte straat, in honderdduizenden: 3, 4, 4, 5, 30. Vier gewone huizen en één landhuis aan het water. De gemiddelde prijs is 46/5 = 9.2, maar geen enkel gewoon huis kost ook maar iets in die buurt. De mediaan, de middelste waarde na sorteren, is slechts 4 en geeft het typische huis eerlijk weer, omdat het eenzame landhuis het midden van de lijst niet erg ver kan verschuiven.

Waar dit voorkomt in MLElke verliesmetriek die je rapporteert is een centrummaat over de testset. "Gemiddelde kwadratische fout" middelt de gekwadrateerde fouten; het gemiddelde is gevoelig, dus een paar catastrofale voorspellingen domineren het. Rapporteer ook de mediane fout wanneer je een zware staart vermoedt. Die vertelt je wat een typisch voorbeeld ervaart, niet wat de slechtste paar met het gemiddelde doen.
▶ Centrummaten
← Centrale LimietstellingSpreidingsmaten →