Parametry i estymatory

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Niemal każde zagadnienie w statystyce opiera się na tym samym schemacie. Istnieje pewna obiektywna, bezpośrednio nieobserwowalna wielkość, nazywana parametrem θ (np. prawdziwa średnia w populacji lub prawdopodobieństwo sukcesu). Mamy jednak dostęp do danych ze skończonej próby. Na ich podstawie wyznaczamy wartość tego parametru – jest to tzw. estymator θ̂. Proces estymacji to sztuka tworzenia dobrych oszacowań, a także ocena, na ile możemy tym oszacowaniom ufać.

Ponieważ dane zawsze zawierają element losowy, sam estymator θ̂ również jest zmienną losową: w każdym nowym eksperymencie uzyskasz nieco inną jego wartość. Jakość estymatora ocenia się na podstawie jego obciążenia (bias) (czy średnio rzecz biorąc trafia on w faktyczną wartość θ?) oraz jego wariancji (jak bardzo waha się z próby na próbę?).

Nie możesz wypić całego garnka zupy, aby ocenić przyprawienie, więc dobrze mieszasz i próbujesz jednej łyżki. Prawdziwa słoność całego garnka to parametr θ, którego nie możesz bezpośrednio zobaczyć; słoność twojej łyżki to estymator θ̂. Najpierw dokładnie zamieszaj, a pojedyncza łyżka oszacuje cały garnek niezwykle dobrze — to właśnie to mieszanie sprawia, że próba jest reprezentatywna.

Gdzie to występuje w MLZjawiska niedouczenia (underfittingu) i przeuczenia (overfittingu) opierają się dokładnie na tym samym kompromisie. Poszczególne parametry modelu to wektor oszacowań θ̂, dopasowanych na podstawie zawsze ograniczonego zestawu danych uczących. Niedouczenie = wysokie obciążenie: model okazuje się zbyt prosty, przez co nie potrafi uchwycić rzeczywistych zależności. Przeuczenie = wysoka wariancja:…

▶ Parametry i estymatory

← Relacje między zmiennymi Estymacja maksymalnej wiarygodności →