p-waarden

Inferentie, schatting en besluitvorming uit data

De p-waarde zet "hoe extreem is mijn toetsingsgrootheid?" om in één enkel getal. Het is de kans om gegevens te zien die minstens zo extreem zijn als de jouwe, aangenomen dat H₀ waar is. Een piepkleine p-waarde betekent "deze gegevens zouden zeer verrassend zijn als er werkelijk geen effect was", wat bewijs tegen H₀ is.

De beslissingsregel is mechanisch: kies van tevoren een drempel α (gewoonlijk 0.05) en verwerp H₀ als p < α. Een kleine p bewijst H₁ niet; het zegt alleen dat de nulhypothese de gegevens slecht verklaart.

Een p-waarde is een toevalscheck: als er niet echt iets aan de hand was, hoe verrassend zou een resultaat als dat van jou dan zijn? Stel dat een vriend beweert een eerlijke munt te hebben maar negen keer achter elkaar kop gooit — een p-waarde plakt een getal op hoe zeldzaam die reeks zou zijn onder het saaie 'het is eerlijk'-verhaal H₀. Hoe kleiner het getal, hoe moeilijker het is om het resultaat af te doen als geluk.

Waar dit voorkomt in MLIn ML vertelt een p-waarde je of de winst van model A op model B op een benchmark signaal of ruis is. Maar de valkuil is echt: met een gigantische testset kan een nauwkeurigheidswinst van 0.01% 'significant' zijn maar in de praktijk volkomen betekenisloos. En p-hacking, configuraties uitproberen tot er een p < 0.05 haalt, is precies hoe scoreborden zich vullen met onreproduceerbare resultaten.

▶ p-waarden

← Raamwerk t-toets →