Schemat

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Testowanie hipotez to ustrukturyzowany sposób odpowiadania na pytanie: „czy obserwowany efekt jest prawdziwy, czy to tylko szum?”, a więc chociażby na pytanie: „czy model A naprawdę jest lepszy od modelu B?”. Punktem wyjścia jest zawsze założenie, że nic się nie dzieje, po czym sprawdzasz, jak bardzo zaskakujące byłyby zebrane dane, gdyby założenie to okazało się prawdziwe.

Mamy tu dwa konkurujące twierdzenia. Hipoteza zerowa H₀ to nudne ustawienie domyślne: brak efektu, brak różnicy. Hipoteza alternatywna H₁ to to, co w rzeczywistości podejrzewasz: efekt istnieje. Na podstawie danych obliczasz statystykę testową i pytasz: zakładając, że H₀ jest prawdziwa, jak bardzo ekstremalna jest to wartość?

Jeśli obliczona statystyka jest tak ekstremalna, że przy założeniu prawdziwości H₀ zdarzałaby się niezwykle rzadko, to odrzucasz H₀. W przeciwnym razie nie ma podstaw do jej odrzucenia (uwaga: nigdy nie mówimy, że „akceptujemy” hipotezę zerową, ponieważ brak dowodu nie jest dowodem braku).

Gdzie to występuje w MLKażde twierdzenie rzędu „+0.5% lepsza skuteczność” jest z definicji ukrytym testem hipotezy. W takim przypadku H₀ mówi: oba modele są równie dobre; obserwowana różnica to tylko szum próbkowania. Pomijając przeprowadzenie testu statystycznego, zaczniesz wdrażać „ulepszenia”, które znikną przy kolejnym podziale danych – staniesz się ofiarą błędów I rodzaju. Cały sens raportowania wariancji pomiędzy…

▶ Schemat

← Przedziały ufności Wartości p →