Regresi Teregularisasi

Inferensi, estimasi, dan pengambilan keputusan dari data

OLS menemukan koefisien yang paling baik fit data pelatihan, persis masalah saat Anda punya banyak fitur atau sedikit data: ia juga fit noise, dan koefisien berayun ke nilai liar. Regresi teregularisasi menjinakkan ini dengan menambah penalti yang menghukum koefisien besar, menukar sedikit fit pelatihan untuk generalisasi jauh lebih baik.

Regresi ridge menambah penalti L2, panjang kuadrat vektor koefisien:

Tombol λ mengontrol kekuatan. λ = 0 adalah OLS polos; saat λ tumbuh, setiap koefisien menyusut menuju nol, menghaluskan model. Penyusutan ini juga memperbaiki (XᵀX)⁻¹ ill-conditioned dari pelajaran lalu: ridge menambah λI, menjamin dapat-dibalik.

Di mana ini berlaku dalam MLPenalti ridge adalah weight decay, regularizer paling umum di deep learning, dibakar ke setiap optimizer. Dan seperti yang Anda lihat di pelajaran 8, ridge = MAP dengan prior Gaussian, lasso = MAP dengan prior Laplace. Regularisasi, weight decay, dan prior Bayesian adalah tiga nama untuk ide yang sama: lebih suka bobot lebih sederhana kecuali data berargumen kuat sebaliknya.

▶ Regresi Teregularisasi

← Diagnostik Model Dekomposisi Bias-Varians →