התפלגויות משותפות — הסתברות · Mathematics for Machine Learning

עד עכשיו כל משתנה מקרי חי לבד. אבל השאלות המעניינות עוסקות ביחסים: גובה ומשקל, תמונה ותווית שלה. התפלגות משותפת p(x, y) נותנת את ההסתברות של כל זוג ערכים בבת אחת. היא התיאור המלא של איך שניים (או יותר) משתנים מתנהגים יחד.

למשתנים בדידים, דמיין רשת: שורות הן ערכי X, עמודות ערכי Y, וכל תא מחזיק את ההסתברות של אותו צירוף. כל התאים אי־שליליים ומסתכמים ל־1, האקסיומות שוב, עכשיו בשני מימדים. למשתנים רציפים זו צפיפות f(x, y) והסתברויות הן נפחים מתחת למשטח דו־ממדי.

תארו לכם טבלה דו-ממדית של אנשים הממוינים לפי גובה ומשקל באותו הזמן: נמוך-וקל בתא אחד, גבוה-וכבד בתא אחר, ומספר בכל תא שאומר עד כמה נפוץ הזיווג הזה. כל הרשת הזו של זיווגים היא ההתפלגות המשותפת p(x, y) — היא מתארת את הגובה והמשקל יחד, לא אחד בכל פעם. מלאו כל תא, עשו אותם לא-שליליים ושדאגו שיסתכמו ל- 1, ולכדתם את התמונה השלמה של כיצד שתי התכונות הללו הולכות יחד.

איפה זה ב־MLלמידה מפוקחת היא מידול משותף p(x, y) של קלטים ותוויות, או חלק ממנו. מודלים גנרטיביים לומדים את המשותף המלא p(x, y) ויכולים לסנתז נתונים חדשים; מודלים דיסקרימינטיביים לומדים רק את המותנה p(y | x) הדרוש לחיזוי. כל ההבחנה גנרטיבי־מול־דיסקרימינטיבי היא כמה מהמשותף טורחים למדל.