Непараметрични тестове — Статистика

T-тестът се основава на едно допускане: данните трябва да имат приблизително нормално разпределение. Когато то не е изпълнено (малки извадки, очевидно изкривяване (skewness), тежки опашки, ординални данни), на помощ идват непараметричните тестове. Те не правят почти никакви допускания за формата на разпределението, като обикновено работят с рангове (поредни номера) вместо със самите стойности.

Два основни теста. Тестът на Уилкоксън (Wilcoxon signed-rank test) е непараметричният аналог на сдвоения t-тест (за свързани двойки). U-тестът на Ман-Уитни (Mann–Whitney U test) е аналогът на t-теста за две извадки (две независими групи). И двата отговарят на въпроса „склонни ли са едните стойности да бъдат по-големи от другите?“, без да допускат нормално разпределение.

Представете си, че съдийствате състезание по бягане, когато хронометърът е счупен. Не можете да отчетете точни времена на финала, но все пак можете да видите кой е пресякъл линията първи, втори и трети. Този ред на финиширане, ранговете, е достатъчен, за да се обяви победител, и не го интересува дали времената са били на 10 секунди или на 10 минути разлика. Непараметричните тестове работят по същия начин: те заменят суровите стойности с рангове, така че няколко диви крайни стойности или несиметрично разпределение не могат да изкривят присъдата.

Къде се използва това в MLПри сравняване на точността на модели, резултатите често са няколко ненормално разпределени числа, което е идеален случай за непараметрични тестове. Пермутационните тестове в частност са много популярни в машинното обучение, защото на практика не изискват никакви допускания и могат да се адаптират към всяка тестова статистика, която ви интересува, включително нестандартни потребителски метрики.…