המסגרת — סטטיסטיקה · Mathematics for Machine Learning

בדיקת השערות היא דרך מסודרת לענות על השאלה "האם האפקט הזה אמיתי, או שזה רק רעש?", שהיא בדיוק השאלה "האם מודל A באמת טוב יותר ממודל B?" מתחילים בהנחה ששום דבר אינו מתרחש ושואלים עד כמה הנתונים שלך היו מפתיעים אילו זה היה נכון.

שתי טענות מתחרות. השערת האפס H₀ היא ברירת המחדל המשעממת: אין אפקט, אין הבדל. ההשערה החלופית H₁ היא מה שאתה חושד בו: שיש אפקט. מחשבים סטטיסטי מבחן מהנתונים ושואלים: אילו H₀ הייתה נכונה, עד כמה קיצוני הערך הזה?

אם הסטטיסטי כה קיצוני עד שהוא היה מתרחש רק לעיתים רחוקות תחת H₀, דוחים את H₀. אחרת אין דוחים אותה (שים לב: לעולם לא "מקבלים", שכן היעדר ראיה אינו ראיה להיעדר).

איפה זה ב־MLכל טענת "+0.5% דיוק" היא במובלע בדיקת השערה. H₀: שני המודלים טובים באותה מידה; הפער שנצפה הוא רעש דגימה. אם מדלגים על המבחן, משחררים שיפורים שנעלמים בחלוקת הנתונים הבאה, ורודפים אחר שגיאות מסוג I. כל הסיבה שbenchmarks של ML מדווחים שונות על פני זרעים היא לאפשר לך לשאול ביושר אם הבדל חוצה את רצפת הרעש.