קשרים בין משתנים

הסקה, אומדן וקבלת החלטות מנתונים

עד כה כל משתנה עמד לבדו. השאלות האמיתיות כוללות בדרך כלל שני משתנים בבת אחת: האם זמן הלמידה קשור לציונים? האם גודל המודל קשור לדיוק? הכלי הראשון הוא תרשים פיזור (נקודה אחת לכל תצפית, x מול y), שמאפשר לעין לזהות מגמה מיד.

כדי לתת מספר למגמה לינארית, השתמש במקדם המתאם של פירסון r. הוא נע בין −1 ל־+1: +1 הוא קו עולה מושלם, −1 קו יורד מושלם, ו־0 פירושו שאין קשר לינארי כלל.

באיור, ככל שהנקודות חובקות בחוזקה רבה יותר את הקו המותאם, כך |r| קרוב יותר ל־1. פזר אותן ו־r נודד לעבר 0.

איפה זה ב־MLניתוח מתאם הוא כלי יומיומי ב־ML. מאפיינים בעלי מתאם גבוה הם מיותרים; הם מנפחים את השונות במודלים לינאריים (רב־קוויניות) ומבזבזים קיבולת. וכשבוחרים benchmark להערכה, בודקים אם הוא מתואם עם המדד שבאמת חשוב לך; מדד פרוקסי זול שימושי רק אם הוא עוקב אחר המדד האמיתי והיקר.
▶ קשרים בין משתנים
← התפלגויות של נתוניםפרמטרים ואומדים →