Inferensi, estimasi, dan pengambilan keputusan dari data
Mengapa model yang fit data pelatihan sempurna sering gagal pada data baru? Dekomposisi bias–varians member jawaban eksak, kuantitatif. Ia memecah galat prediksi ekspektasi model menjadi tiga bagian, dan dua di antaranya tarik berlawanan arah.
Bias² adalah galat dari asumsi salah: model terlalu sederhana untuk menangkap kebenaran (underfitting). Varians adalah galat dari sensitivitas terhadap sampel pelatihan tertentu: model begitu fleksibel ia menghafal noise (overfitting). Noise irreducible: keacakan dalam data yang tidak bisa model apa pun hapus.
Geser kompleksitas di gambar. Saat model tumbuh lebih kompleks, bias² (hijau) turun tapi varians (oranye) naik. Total galat tes (hitam) adalah jumlah mereka plus lantai noise: bentuk-U yang dasarnya adalah kompleksitas optimal.