Inferentie, schatting en besluitvorming uit data
Je hebt twee classifiers gebouwd en de ene scoort 91,0% nauwkeurigheid, de andere 91,4%. Is de tweede echt beter, of kreeg hij gewoon een gelukkigere testset? Dit rigoureus beantwoorden is statistisch toetsen voor ML: hypothesetoetsing aangepast aan de eigenaardigheden van modelvergelijking.
De naïeve zet, een gewone t-toets op nauwkeurigheden per vouw, is gebrekkig, omdat kruisvalidatievouwen trainingsdata delen en zo de onafhankelijkheid schenden die de t-toets aanneemt. Dit maakt de toets overmoedig, wat valse positieven opblaast. Drie betere gereedschappen behandelen de ML-setting eerlijk.
McNemars toets vergelijkt twee classifiers op dezelfde testset door alleen te kijken naar de voorbeelden waar ze het oneens zijn, precies de juiste vraag voor gepaarde voorspellingen. De bootstrap hertrekt de testset met teruglegging vele malen om direct een betrouwbaarheidsinterval voor de nauwkeurigheid op te bouwen, geen formule nodig. De gecorrigeerde gepaarde t-toets past de variantie aan om rekening te houden met de overlap tussen CV-vouwen, wat de overmoed van de naïeve versie ongedaan maakt.