Test Multipli

Inferenza, stima e processo decisionale dai dati

Esegui un solo test ad α = 0,05 e hai il 5% di probabilità di un falso positivo. Esegui venti test indipendenti e, anche se nulla è reale, otterrai con ogni probabilità almeno un risultato "significativo" per pura fortuna. Questo è il problema dei test multipli, e corrompe silenziosamente un'enorme quantità di ricerca e di sperimentazione ML.

La probabilità di almeno un falso positivo su m test, il tasso di errore per famiglia (family-wise error rate), esplode: con m test indipendenti al livello α vale 1 − (1 − α)m. Per m = 20, α = 0,05, è circa il 64%: è più probabile trovare un effetto fantasma che non trovarlo.

Compra un singolo biglietto della lotteria e le tue probabilità di vincita sono minuscole. Comprane mille e uno di essi potrebbe "vincere" qualcosa puramente per caso, anche se non hai alcuna intuizione speciale. Eseguire molti test statistici è la stessa scommessa: con un numero sufficiente di tentativi, un colpo di fortuna privo di significato finirà per superare la linea di significatività e mascherarsi da vera scoperta.

Dove si trova nel MLI test multipli sono un killer silenzioso del rigore nel ML. Una ricerca di iperparametri su 100 configurazioni, uno studio di ablazione con decine di varianti, o una suite di benchmark con 50 task: ognuno è una raffica di test impliciti. Scegliere "la configurazione che ha vinto sull'insieme di validazione" senza correzione è test multiplo su vasta scala, ed è il motivo per cui tanti guadagni…

▶ Test Multipli

← t-test Test Non Parametrici →