Raamwerk

Inferentie, schatting en besluitvorming uit data

Hypothesetoetsing is een gedisciplineerde manier om de vraag "is dit effect echt, of zou het gewoon ruis kunnen zijn?" te beantwoorden, wat precies de vraag is "is model A daadwerkelijk beter dan model B?" Je begint door aan te nemen dat er niets aan de hand is en vraagt hoe verrassend je gegevens zouden zijn als dat waar was.

Twee concurrerende beweringen. De nulhypothese H₀ is de saaie standaard: geen effect, geen verschil. Het alternatief H₁ is wat je vermoedt: er is een effect. Je berekent een toetsingsgrootheid uit de gegevens en vraagt: als H₀ waar was, hoe extreem is deze waarde?

Als de grootheid zo extreem is dat ze zelden zou voorkomen onder H₀, dan verwerp je H₀. Anders verwerp je haar niet (let op: nooit "accepteren", want afwezigheid van bewijs is geen bewijs van afwezigheid).

Waar dit voorkomt in MLElke "+0.5% nauwkeurigheid"-claim is impliciet een hypothesetoets. H₀: de twee modellen zijn even goed; de waargenomen kloof is steekproefruis. Als je de toets overslaat, lever je verbeteringen die verdwijnen bij de volgende datasplitsing, jagend op type I-fouten. De hele reden dat ML-benchmarks variantie over seeds rapporteren is om je eerlijk te laten vragen of een verschil de ruisvloer…

▶ Raamwerk

← Betrouwbaarheidsintervallen p-waarden →