Statistisch Toetsen voor ML

Inferentie, schatting en besluitvorming uit data

Je hebt twee classifiers gebouwd en de ene scoort 91,0% nauwkeurigheid, de andere 91,4%. Is de tweede echt beter, of kreeg hij gewoon een gelukkigere testset? Dit rigoureus beantwoorden is statistisch toetsen voor ML: hypothesetoetsing aangepast aan de eigenaardigheden van modelvergelijking.

De naïeve zet, een gewone t-toets op nauwkeurigheden per vouw, is gebrekkig, omdat kruisvalidatievouwen trainingsdata delen en zo de onafhankelijkheid schenden die de t-toets aanneemt. Dit maakt de toets overmoedig, wat valse positieven opblaast. Drie betere gereedschappen behandelen de ML-setting eerlijk.

McNemars toets vergelijkt twee classifiers op dezelfde testset door alleen te kijken naar de voorbeelden waar ze het oneens zijn, precies de juiste vraag voor gepaarde voorspellingen. De bootstrap hertrekt de testset met teruglegging vele malen om direct een betrouwbaarheidsinterval voor de nauwkeurigheid op te bouwen, geen formule nodig. De gecorrigeerde gepaarde t-toets past de variantie aan om rekening te houden met de overlap tussen CV-vouwen, wat de overmoed van de naïeve versie ongedaan maakt.

Waar dit voorkomt in MLDit soort rigueur is wat een echt resultaat scheidt van ranglijstruis. Voordat je beweert dat model A model B verslaat, voer McNemars toets uit (dezelfde testset) of een bootstrap-BI op de nauwkeurigheidskloof. De hele reden dat een resultaat wordt gerapporteerd als "91,2% ± 0,4%" in plaats van alleen "91,2%" is zodat een lezer precies dit soort toets met het oog kan toepassen.

▶ Statistisch Toetsen voor ML

← Evaluatiemetrieken Generatief versus Discriminatief →