Inferenza, stima e processo decisionale dai dati
Esegui un solo test ad α = 0,05 e hai il 5% di probabilità di un falso positivo. Esegui venti test indipendenti e, anche se nulla è reale, otterrai con ogni probabilità almeno un risultato "significativo" per pura fortuna. Questo è il problema dei test multipli, e corrompe silenziosamente un'enorme quantità di ricerca e di sperimentazione ML.
La probabilità di almeno un falso positivo su m test, il tasso di errore per famiglia (family-wise error rate), esplode: con m test indipendenti al livello α vale 1 − (1 − α)m. Per m = 20, α = 0,05, è circa il 64%: è più probabile trovare un effetto fantasma che non trovarlo.
Compra un singolo biglietto della lotteria e le tue probabilità di vincita sono minuscole. Comprane mille e uno di essi potrebbe "vincere" qualcosa puramente per caso, anche se non hai alcuna intuizione speciale. Eseguire molti test statistici è la stessa scommessa: con un numero sufficiente di tentativi, un colpo di fortuna privo di significato finirà per superare la linea di significatività e mascherarsi da vera scoperta.