Testy nieparametryczne

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Test t opiera się na kluczowym założeniu: zebrane dane muszą mieć w miarę normalny rozkład. Gdy założenie to zostaje naruszone (np. przy bardzo małych próbach, wyraźnej asymetrii, ciężkich ogonach rozkładu lub w przypadku danych porządkowych), do akcji wkraczają testy nieparametryczne. Nie narzucają one niemal żadnych wymogów odnośnie kształtu rozkładu, przeważnie operując na rangach, a nie na surowych wartościach.

Oto dwie klasyczne pozycje. Test znakowanych rang Wilcoxona (signed-rank test) to nieparametryczny odpowiednik testu t dla prób sparowanych (zależnych). Test U Manna-Whitneya to z kolei odpowiednik testu t dla dwóch prób niezależnych. Oba testy de facto sprawdzają, czy „wartości z jednej grupy są zazwyczaj większe od tych z drugiej?”, nie robiąc przy tym absolutnie żadnych założeń dotyczących normalności.

Wyobraź sobie, że oceniasz wyścig biegowy, gdy stoper jest zepsuty. Nie możesz odczytać dokładnych czasów na mecie, ale wciąż możesz zobaczyć, kto przekroczył linię jako pierwszy, drugi i trzeci. Ta kolejność na mecie, te pozycje, wystarczą by wyłonić zwycięzcę, a nie ma znaczenia, czy odstępy czasowe wynosiły 10 sekund czy 10 minut. Testy nieparametryczne działają w ten sam sposób: zastępują wartości surowe pozycjami (rangami), dzięki czemu kilka dzikich wartości odstających lub asymetryczny rozkład nie mogą zniekształcić werdyktu.

Gdzie to występuje w MLKiedy porównujemy dokładność modeli, otrzymane wyniki często przyjmują postać zaledwie garstki nietypowych liczb o rozkładzie zupełnie niepodobnym do normalnego — jest to więc wymarzone pole do popisu dla testów nieparametrycznych. Testy permutacyjne cieszą się w środowisku ML szczególną popularnością, ponieważ nie wymagają one niemal żadnych wstępnych założeń, a przy tym bardzo łatwo adaptują…

▶ Testy nieparametryczne

← Testowanie wielokrotne Prosta regresja liniowa →