Inferensi, estimasi, dan pengambilan keputusan dari data
Jika Anda harus memilih satu nilai untuk parameter θ, aturan paling natural adalah ini: pilih θ yang membuat data yang benar-benar Anda amati paling mungkin. Itulah estimasi maksimum likelihood (MLE), prinsip di balik pelatihan hampir setiap model di ML.
Diberikan data x₁, …, xₙ diasumsikan independen, probabilitas seluruh sampel adalah produk probabilitas per-titik. Sebagai fungsi θ, produk ini adalah likelihood:
Mengalikan banyak probabilitas kecil underflow ke nol dan canggung untuk didiferensiasi. Perbaikannya ambil log: log produk adalah jumlah, dan log menaik jadi tidak menggeser maksimizer. Kita maksimalkan log-likelihood: