Test Statistici per l'ML

Inferenza, stima e processo decisionale dai dati

Hai costruito due classificatori: uno raggiunge il 91,0% di accuratezza, l'altro il 91,4%. Il secondo è davvero migliore, oppure ha solo avuto un insieme di test più fortunato? Rispondere con rigore è compito del test statistico per l'ML: la verifica delle ipotesi adattata alle stranezze del confronto tra modelli.

La mossa ingenua, un semplice t-test sulle accuratezze fold per fold, è viziata, perché i fold della validazione incrociata condividono i dati di addestramento e quindi violano l'indipendenza che il t-test assume. Questo rende il test troppo sicuro di sé, gonfiando i falsi positivi. Tre strumenti migliori affrontano onestamente il contesto dell'ML.

Il test di McNemar confronta due classificatori sullo stesso insieme di test guardando solo gli esempi su cui discordano, esattamente la domanda giusta per le predizioni appaiate. Il bootstrap ricampiona l'insieme di test con reinserimento molte volte per costruire direttamente un intervallo di confidenza per l'accuratezza, senza alcuna formula. Il t-test appaiato corretto aggiusta la varianza per tenere conto della sovrapposizione tra i fold della validazione incrociata, annullando l'eccessiva sicurezza della versione ingenua.

Dove si trova nel MLQuesto tipo di rigore è ciò che distingue un risultato reale dal rumore della leaderboard. Prima di affermare che il modello A batte il modello B, esegui un test di McNemar (stesso insieme di test) o un intervallo di confidenza bootstrap sullo scarto di accuratezza. Il motivo per cui un risultato si riporta come "91,2% ± 0,4%" anziché solo "91,2%" è proprio consentire al lettore di applicare a…

▶ Test Statistici per l'ML

← Metriche di Valutazione Generativo vs Discriminativo →