Testowanie wielokrotne

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Przeprowadź jeden test statystyczny przy α = 0.05, a będziesz miał 5% szans na wynik fałszywie dodatni. Przeprowadź dwadzieścia niezależnych testów, a nawet jeśli żaden z badanych efektów nie istnieje w rzeczywistości, prawdopodobnie uzyskasz co najmniej jeden „istotny” wynik za sprawą czystego szczęścia. Jest to tzw. problem porównań wielokrotnych, który po cichu psuje ogromną liczbę badań naukowych i eksperymentów ML.

Prawdopodobieństwo uzyskania co najmniej jednego wyniku fałszywie dodatniego po m testach — czyli skumulowany błąd I rodzaju (FWER - Family-Wise Error Rate) — rośnie: przy m niezależnych testach na poziomie α wynosi ono 1 − (1 − α)m. Dla m = 20 oraz α = 0.05 daje to wynik około 64%, co oznacza, że znalezienie fałszywego, „fantomowego” efektu jest bardziej prawdopodobne niż jego brak.

Kup jeden los na loterię, a twoje szanse na wygraną są maleńkie. Kup tysiąc, a jeden z nich może "wygrać" coś czysto przez przypadek, nawet jeśli nie posiadasz żadnej szczególnej przenikliwości. Przeprowadzenie wielu testów statystycznych to ten sam hazard: przy wystarczającej liczbie prób nic nieznaczący przypadek w końcu przekroczy linię istotności i będzie udawał prawdziwe odkrycie.

Gdzie to występuje w MLProblem wielokrotnego testowania (porównań wielokrotnych) to cichy zabójca rygoru naukowego w dziedzinie ML. Przeszukiwanie siatki hiperparametrów z użyciem 100 różnych konfiguracji, badanie ablacyjne testujące dziesiątki wariantów sieci czy zestaw benchmarków składający się z 50 zadań: to wszystko serie ukrytych, niejawnych testów statystycznych. Proste wybranie „konfiguracji, która zwyciężyła…

▶ Testowanie wielokrotne

← Test t Testy nieparametryczne →