Wartości p

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Wartość p (p-value) sprowadza pytanie „jak ekstremalna jest moja statystyka testowa?” do pojedynczej liczby. Jest to prawdopodobieństwo zaobserwowania danych co najmniej tak ekstremalnych jak te uzyskane w próbie, przy założeniu, że H₀ jest prawdziwa. Bardzo mała wartość p oznacza: „uzyskane dane byłyby bardzo zaskakujące, gdyby w rzeczywistości nie było żadnego efektu” – stanowi to zatem silny dowód przeciwko H₀.

Reguła decyzyjna jest w pełni zmechanizowana: ustal z góry próg α (najczęściej 0.05), a następnie odrzuć H₀, jeśli p < α. Małe p wcale nie dowodzi prawdziwości H₁; wskazuje jedynie na to, że hipoteza zerowa bardzo słabo tłumaczy zaobserwowane dane.

P-value to sprawdzian przypadku: gdyby tak naprawdę nic się nie działo, jak bardzo zaskakujący byłby taki wynik jak twój? Przypuśćmy, że znajomy twierdzi, że ma uczciwą monetę, a wyrzuca dziewięć orłów z rzędu — p-value przypisuje liczbę temu, jak rzadka byłaby ta passa w nudnej historii 'jest uczciwa' H₀. Im mniejsza liczba, tym trudniej zbyć wynik jako łut szczęścia.

Gdzie to występuje w MLW dziedzinie ML wartość p mówi nam, czy przewaga modelu A nad modelem B na danym benchmarku jest prawdziwym sygnałem, czy jedynie szumem. Pułapka jest tu jednak niezwykle realna: przy ogromnym zbiorze testowym zysk na poziomie 0.01% skuteczności (accuracy) może okazać się „istotny statystycznie”, pozostając przy tym czymś absolutnie bez znaczenia w zastosowaniach praktycznych. Z kolei p-hacking,…

▶ Wartości p

← Schemat Test t →