אמידה בייסיאנית — סטטיסטיקה · Mathematics for Machine Learning

MLE שואל "איזה θ יחיד מסביר את הנתונים בצורה הטובה ביותר?" אמידה בייסיאנית שואלת שאלה עשירה יותר: "בהינתן הנתונים, מהי האמונה המלאה שלי לגבי θ?" במקום מספר אחד, מתקבלת התפלגות שלמה, ואפשר לשלב בה את מה שידעת מראש.

שלושה מרכיבים. ההתפלגות המוקדמת (prior) p(θ) היא אמונתך לפני ראיית הנתונים. הנראות p(x|θ) היא מידת ההסבר שכל θ נותן לנתונים (אותו אובייקט כמו ב־MLE). כלל בייס משלב אותם להתפלגות מאוחרת (posterior) p(θ|x):

קרא זאת כך: האמונה המאוחרת = מידת ההסבר שנותן θ לנתונים, משוקללת במידת הסבירות של θ מלכתחילה. ככל שיש יותר נתונים, הנראות הופכת לדומיננטית ושוטפת את ההתפלגות המוקדמת.

איפה זה ב־MLרגולריזציה היא הרעיון הזה בשימוש יומיומי. הוספת עונש L2 בגודל λ‖β‖² להפסד היא בדיוק אמידת MAP עם התפלגות מוקדמת גאוסיאנית על המשקלים. ההתפלגות המוקדמת אומרת "משקלים קרובים לאפס סבירים יותר". הוספת עונש L1 מתאימה להתפלגות מוקדמת לפלסיאנית, המעדיפה משקלים דלילים. weight decay אינו טריק; הוא התפלגות מוקדמת בייסיאנית בשם אחר.