Inferentie, schatting en besluitvorming uit data
Voer één toets uit bij α = 0.05 en je hebt 5% kans op een vals positief. Voer twintig onafhankelijke toetsen uit en, zelfs als niets echt is, krijg je waarschijnlijk minstens één "significant" resultaat door puur geluk. Dit is het meervoudig-toetsenprobleem, en het corrumpeert stilletjes een enorme hoeveelheid onderzoek en ML-experimenten.
De kans op minstens één vals positief over m toetsen, de familiegewijze foutkans, zwelt op: met m onafhankelijke toetsen op niveau α is ze 1 − (1 − α)m. Voor m = 20, α = 0.05 is dat ongeveer 64%, waarschijnlijker wel dan niet om een spookeffect te vinden.
Koop een enkel lot voor de loterij en je kansen om te winnen zijn piepklein. Koop er duizend en één ervan zou puur door toeval iets kunnen "winnen", ook al heb je helemaal geen speciaal inzicht. Het uitvoeren van veel statistische toetsen is dezelfde gok: met genoeg pogingen zal een betekenisloze toevalstreffer uiteindelijk de significantielijn passeren en zich voordoen als een echte ontdekking.