Inferenza, stima e processo decisionale dai dati
Hai costruito due classificatori: uno raggiunge il 91,0% di accuratezza, l'altro il 91,4%. Il secondo è davvero migliore, oppure ha solo avuto un insieme di test più fortunato? Rispondere con rigore è compito del test statistico per l'ML: la verifica delle ipotesi adattata alle stranezze del confronto tra modelli.
La mossa ingenua, un semplice t-test sulle accuratezze fold per fold, è viziata, perché i fold della validazione incrociata condividono i dati di addestramento e quindi violano l'indipendenza che il t-test assume. Questo rende il test troppo sicuro di sé, gonfiando i falsi positivi. Tre strumenti migliori affrontano onestamente il contesto dell'ML.
Il test di McNemar confronta due classificatori sullo stesso insieme di test guardando solo gli esempi su cui discordano, esattamente la domanda giusta per le predizioni appaiate. Il bootstrap ricampiona l'insieme di test con reinserimento molte volte per costruire direttamente un intervallo di confidenza per l'accuratezza, senza alcuna formula. Il t-test appaiato corretto aggiusta la varianza per tenere conto della sovrapposizione tra i fold della validazione incrociata, annullando l'eccessiva sicurezza della versione ingenua.