Betrouwbaarheidsintervallen

Inferentie, schatting en besluitvorming uit data

Een puntschatting zoals x̄ = 5.2 is vrijwel zeker niet exact het ware gemiddelde, dus één getal alleen is oneerlijk. Een betrouwbaarheidsinterval rapporteert een bereik plus een betrouwbaarheidsniveau: "de ware θ ligt in [L, U], met 95% betrouwbaarheid." Het kwantificeert hoeveel je eindige steekproef je toestaat de schatting te vertrouwen.

Het meest voorkomende geval gebruikt de centrale limietstelling: het steekproefgemiddelde is bij benadering normaal verdeeld, dus het interval is de schatting plus-of-min een foutmarge:

De standaardfout σ/√n krimpt naarmate n groeit: vier keer zoveel gegevens halveert de marge. De z-waarde stelt de betrouwbaarheid in: 1.96 voor 95%, 2.576 voor 99%.

Waar dit voorkomt in MLZo rapporteren eerlijke ML-papers resultaten. Een nauwkeurigheid van "91.2% ± 0.4%" is een betrouwbaarheidsinterval; de ± is de foutbalk. Wanneer de intervallen van twee modellen sterk overlappen, kan de "winnaar" gewoon geluk met de steekproef hebben. Wanneer de populatie-σ onbekend is of de verdeling vreemd is, bouwt de bootstrap (je testset met teruglegging herbemonsteren) het interval…

▶ Betrouwbaarheidsintervallen

← Bayesiaanse Schatting Raamwerk →