אומד נראות מרבית — סטטיסטיקה · Mathematics for Machine Learning

אם עליך לבחור ערך יחיד לפרמטר θ, הכלל הטבעי ביותר הוא: בחר את ה־θ שהופך את הנתונים שבהם צפית בפועל להסתברים ביותר. זהו אומד נראות מרבית (MLE), העיקרון העומד מאחורי אימונו של כמעט כל מודל ב־ML.

בהינתן נתונים x₁, …, xₙ המונחים בלתי תלויים, ההסתברות של המדגם כולו היא מכפלת ההסתברויות הנקודתיות. כפונקציה של θ, מכפלה זו היא הנראות:

הכפלה של הסתברויות קטנות רבות נשמטת לאפס מבחינה מספרית ומסורבלת לגזירה. הפתרון הוא לקחת לוגריתם: הלוגריתם של מכפלה הוא סכום, והלוגריתם פונקציה עולה ולכן אינו מזיז את נקודת המקסימום. אנו ממקסמים את לוג־הנראות:

איפה זה ב־MLאימון מודל הוא נראות מרבית. מזעור הפסד האנטרופיה הצולבת הוא בדיוק מקסום לוג־הנראות של התוויות; האנטרופיה הצולבת היא לוג־הנראות השלילית. מזעור השגיאה הריבועית הממוצעת הוא MLE תחת הנחת רעש גאוסיאני. כשאתה קורא ל־.backward() וצועד עם האופטימייזר, אתה מטפס במעלה משטח לוג־הנראות, רק במיליוני ממדים.