Estimasi Maksimum Likelihood

Inferensi, estimasi, dan pengambilan keputusan dari data

Jika Anda harus memilih satu nilai untuk parameter θ, aturan paling natural adalah ini: pilih θ yang membuat data yang benar-benar Anda amati paling mungkin. Itulah estimasi maksimum likelihood (MLE), prinsip di balik pelatihan hampir setiap model di ML.

Diberikan data x₁, …, xₙ diasumsikan independen, probabilitas seluruh sampel adalah produk probabilitas per-titik. Sebagai fungsi θ, produk ini adalah likelihood:

Mengalikan banyak probabilitas kecil underflow ke nol dan canggung untuk didiferensiasi. Perbaikannya ambil log: log produk adalah jumlah, dan log menaik jadi tidak menggeser maksimizer. Kita maksimalkan log-likelihood:

Di mana ini berlaku dalam MLMelatih model adalah maksimum likelihood. Meminimalkan loss cross-entropy persis memaksimalkan log-likelihood label; cross-entropy adalah negatif log-likelihood. Meminimalkan mean squared error adalah MLE di bawah asumsi noise Gaussian. Saat Anda memanggil .backward() dan melangkah optimizer, Anda memanjat permukaan log-likelihood di atas, hanya dalam jutaan dimensi.

▶ Estimasi Maksimum Likelihood

← Parameter & Estimator MLE untuk Distribusi Umum →