Verdelingen van Gegevens

Inferentie, schatting en besluitvorming uit data

Eén centrum en één spreiding zijn slechts twee getallen. De volledige vorm van de gegevens (de verdeling) draagt veel meer informatie. De snelste manier om die te zien is een histogram: hak het bereik in klassen en tel hoeveel waarden in elke klasse vallen. Een gladgestreken versie heet een dichtheidsgrafiek.

Zodra je de vorm kunt zien, doen twee vragen ertoe: is hij symmetrisch of scheef, en zijn de staarten zwaar of licht?

Scheefheid meet asymmetrie. Een rechtsscheve (positieve) verdeling heeft een lange staart die naar rechts uitloopt: inkomens, wachttijden, bestandsgroottes. Een linksscheve verdeling loopt naar links uit. Bij een rechtsscheve vorm ligt het gemiddelde rechts van de mediaan, meegetrokken door de staart.

Waar dit voorkomt in MLDe vorm van een verdeling stuurt echte ML-beslissingen aan. Activatieverdelingen binnen een netwerk kunnen verschuiven en zware staarten ontwikkelen, en daarom bestaan batch-/laagnormalisatie. Verliesverdelingen over batches onthullen of je model uniform faalt of zich verslikt in een zwaarstaartige minderheid van moeilijke voorbeelden. En zware staarten zijn de reden dat robuuste verliesfuncties…
▶ Verdelingen van Gegevens
← SpreidingsmatenVerbanden Tussen Variabelen →