Meervoudig Toetsen

Inferentie, schatting en besluitvorming uit data

Voer één toets uit bij α = 0.05 en je hebt 5% kans op een vals positief. Voer twintig onafhankelijke toetsen uit en, zelfs als niets echt is, krijg je waarschijnlijk minstens één "significant" resultaat door puur geluk. Dit is het meervoudig-toetsenprobleem, en het corrumpeert stilletjes een enorme hoeveelheid onderzoek en ML-experimenten.

De kans op minstens één vals positief over m toetsen, de familiegewijze foutkans, zwelt op: met m onafhankelijke toetsen op niveau α is ze 1 − (1 − α)m. Voor m = 20, α = 0.05 is dat ongeveer 64%, waarschijnlijker wel dan niet om een spookeffect te vinden.

Koop een enkel lot voor de loterij en je kansen om te winnen zijn piepklein. Koop er duizend en één ervan zou puur door toeval iets kunnen "winnen", ook al heb je helemaal geen speciaal inzicht. Het uitvoeren van veel statistische toetsen is dezelfde gok: met genoeg pogingen zal een betekenisloze toevalstreffer uiteindelijk de significantielijn passeren en zich voordoen als een echte ontdekking.

Waar dit voorkomt in MLMeervoudig toetsen is een stille sluipmoordenaar van ML-rigueur. Een hyperparameterzoektocht over 100 configuraties, een ablatiestudie met tientallen varianten, of een benchmarksuite met 50 taken: elk is een spervuur van impliciete toetsen. "De config die won op de validatieset" kiezen zonder correctie is massaal meervoudig toetsen, en het is de reden dat zoveel gerapporteerde winsten verdampen…

▶ Meervoudig Toetsen

← t-toets Niet-parametrische Toetsen →