Spreidingsmaten

Inferentie, schatting en besluitvorming uit data

Een centrum vertelt je waar de data zich bevindt; spreiding vertelt je hoeveel het wiebelt rond dat centrum. Twee datasets kunnen hetzelfde gemiddelde delen en toch enorm verschillen: de ene strak geclusterd, de andere overal. Spreiding is het verschil.

Het werkpaard is de variantie: de gemiddelde gekwadrateerde afstand tot het gemiddelde. De vierkantswortel ervan, de standaardafwijking, leeft in dezelfde eenheden als de data, dus is hij makkelijker te interpreteren.

Twee klassen maken dezelfde quiz en beide scoren gemiddeld 72, dus op papier zien ze er identiek uit. Maar klasse A scoorde 70, 72, 74 (iedereen dicht bij elkaar) terwijl klasse B 50, 72, 94 scoorde (wijd verspreid). Hetzelfde middelpunt, compleet andere verhalen: spreiding is precies het getal dat hen onderscheidt.

Waar dit voorkomt in MLSpreiding is overal aanwezig in de betrouwbaarheid van ML. Gradiëntvariantie over een mini-batch bepaalt hoe ruizig elke trainingsstap is; hoge variantie betekent een schokkerige afdaling. En wanneer je de nauwkeurigheid van een model rapporteert, is de standaardafwijking over willekeurige seeds wat je vertelt of een "+0,3%"-verbetering echt is of slechts ruis. Een resultaat zonder zijn spreiding…

▶ Spreidingsmaten

← Centrummaten Verdelingen van Gegevens →