Parameter & Estimator

Inferensi, estimasi, dan pengambilan keputusan dari data

Hampir setiap pertanyaan statistik punya bentuk yang sama. Ada angka sejati di luar sana yang tidak bisa Anda lihat, parameter θ (mean sejati, probabilitas sukses sejati). Anda hanya punya sampel data terbatas. Dari data itu Anda hitung tebakan, estimator θ̂. Estimasi adalah seni membangun tebakan baik dan tahu seberapa mempercayainya.

Karena data acak, θ̂ sendiri kuantitas acak: jalankan eksperimen lagi, dapat θ̂ berbeda. Kita menilai estimator dengan dua hal: bias (apakah mendarat di θ rata-rata?) dan varians (berapa banyak ia memantul dari sampel ke sampel?).

Anda tidak bisa meminum seluruh panci sup untuk menilai bumbunya, jadi Anda mengaduknya dengan rata dan mencicipi satu sendok. Tingkat keasinan sebenarnya dari seluruh panci tersebut adalah parameter θ yang tidak dapat Anda lihat secara langsung; keasinan pada sendok Anda adalah estimator θ̂. Aduk sampai rata terlebih dahulu dan satu sendok memperkirakan seluruh panci dengan sangat baik — pengadukan itulah yang membuat sampel menjadi representatif.

Di mana ini berlaku dalam MLUnderfitting versus overfitting adalah tradeoff yang sama. Parameter model adalah θ̂, di-fit dari data pelatihan terbatas. Underfitting = bias tinggi: model terlalu sederhana untuk menangkap kebenaran. Overfitting = varians tinggi: model begitu fleksibel ia menghafal sampel pelatihan tertentu, dan sampel baru akan member parameter sangat berbeda. Memilih kompleksitas model adalah memilih titik di…

▶ Parameter & Estimator

← Hubungan Antar Variabel Estimasi Maksimum Likelihood →