Hubungan Antar Variabel

Inferensi, estimasi, dan pengambilan keputusan dari data

Sejauh ini setiap variabel berdiri sendiri. Pertanyaan nyata biasanya melibatkan dua variabel sekaligus: apakah waktu belajar berhubungan dengan nilai? apakah ukuran model berhubungan dengan akurasi? Alat pertama adalah scatter plot (satu titik per observasi, x terhadap y), yang membiarkan mata Anda menemukan tren seketika.

Untuk memberi angka pada tren linear, gunakan koefisien korelasi Pearson r. Ia berjalan dari −1 ke +1: +1 garis naik sempurna, −1 garis turun sempurna, 0 tidak ada hubungan linear sama sekali.

Di gambar, semakin erat titik memeluk garis ter-fit, semakin dekat |r| ke 1. Sebarkan mereka dan r bergeser menuju 0.

Di mana ini berlaku dalam MLAnalisis korelasi adalah alat ML harian. Fitur sangat berkorelasi redundan; mereka menggelembungkan varians dalam model linear (multikolinearitas) dan membuang kapasitas. Dan saat memilih benchmark evaluasi, Anda periksa apakah berkorelasi dengan metrik yang Anda peduli; metrik proxy murah hanya berguna jika melacak yang mahal sebenarnya.
▶ Hubungan Antar Variabel
← Distribusi DataParameter & Estimator →