Variantie

De wiskunde van onzekerheid

Twee weddenschappen kunnen hetzelfde gemiddelde delen en toch volkomen verschillend aanvoelen: "+1 of −1" tegenover "+1000 of −1000" middelen beide naar 0, maar één is wild. Variantie meet die spreiding, de gemiddelde gekwadrateerde afstand van X tot zijn gemiddelde μ = E[X]:

Kwadrateren houdt afwijkingen positief (zodat ze niet wegvallen) en bestraft grote uitstapjes harder. Om terug te komen naar de oorspronkelijke eenheden, neem de vierkantswortel: de standaardafwijking σ = √Var(X).

In de praktijk is de kortere formule sneller, "het gemiddelde van het kwadraat minus het kwadraat van het gemiddelde":

Waar dit voorkomt in MLDe variantie van een gradiëntschatter bepaalt hoe ruizig elke trainingsstap is. Een mini-batch-gradiënt is een gemiddelde van per-voorbeeld-gradiënten; volgens Bienaymé deelt het middelen van n onafhankelijke schattingen de variantie door n, dus de ruis daalt als 1/√n in standaardafwijking. Dat is de hele reden dat grotere batches gladdere stappen met lagere variantie geven, en waarom…
▶ Variantie
← VerwachtingBelangrijke Discrete Verdelingen →