Diagnostik Model

Inferensi, estimasi, dan pengambilan keputusan dari data

Fitting regresi adalah bagian mudah. Pertanyaan lebih sulit adalah apakah Anda bisa mempercayainya. Diagnostik model adalah pemeriksaan yang menangkap model yang fit angka tapi melanggar asumsi di bawahnya. Objek paling berguna untuk dilihat adalah residual: e = y − ŷ, sisa yang tidak bisa model jelaskan.

Jika model benar, residual harus terlihat seperti noise murni: tidak ada pola, sebaran konstan, kira-kira simetris. Alat utama adalah plot residual: residual di sumbu-y terhadap nilai ter-fit (atau masukan) di sumbu-x. Anda berburu struktur yang tidak seharusnya ada.

Seorang dokter yang baik tidak berhenti pada sekadar menamai penyakitnya; mereka memeriksa gejala apa yang tersisa setelah perawatan. Jika seorang pasien masih memiliki batuk yang membandel, diagnosisnya melewatkan sesuatu. Residual adalah gejala sisa dari sebuah model: bagian dari data yang tidak dapat dijelaskan oleh garis yang disesuaikan. Jika mereka menunjukkan pola yang jelas alih-alih kebisingan acak yang tidak berbahaya, model tersebut juga melewatkan sesuatu.

Di mana ini berlaku dalam MLAnalisis residual adalah leluhur statistik dari learning-curve dan analisis galat di ML. "Loss pelatihan ≠ loss validasi" adalah diagnostik: celah besar menandakan overfitting (varians tinggi), seperti residual berpola menandakan model salah-spesifikasi. Memotong galat Anda berdasarkan subkelompok untuk menemukan di mana model gagal sistematis persis pemikiran plot-residual, berskala naik.
▶ Diagnostik Model
← Regresi Linear BergandaRegresi Teregularisasi →