p-values — סטטיסטיקה · Mathematics for Machine Learning

הp-value הופך את השאלה "עד כמה קיצוני סטטיסטי המבחן שלי?" למספר יחיד. זו ההסתברות לראות נתונים קיצוניים לפחות כמו שלך, בהנחה ש־H₀ נכונה. p-value זעיר אומר "נתונים אלה היו מפתיעים מאוד אילו באמת לא היה אפקט", וזו ראיה נגד H₀.

כלל ההחלטה מכני: בחר מראש סף α (לעיתים קרובות 0.05), ואז דחה את H₀ אם p < α. p קטן אינו מוכיח את H₁; הוא רק אומר שהאפס מסביר את הנתונים בצורה גרועה.

ערך-p הוא בדיקת מזל: אם שום דבר לא באמת היה קורה, עד כמה הייתה מפתיעה תוצאה כמו שלכם? נניח שחבר טוען למטבע הוגן ובכל זאת מטיל תשע פעמים עץ ברצף — ערך-p שם מספר על עד כמה נדיר יהיה הרצף הזה תחת הסיפור המשעמם של 'זה הוגן' H₀. ככל שהמספר קטן יותר, כך קשה יותר לפטור את התוצאה כעניין של מזל.

איפה זה ב־MLב־ML, ה־p-value אומר לך אם ניצחון מודל A על מודל B ב־benchmark הוא אות או רעש. אבל המלכודת אמיתית: עם קבוצת מבחן ענקית, שיפור דיוק של 0.01% יכול להיות 'מובהק' וחסר משמעות לחלוטין בפועל. ו־p-hacking, ניסוי תצורות עד שאחת מהן עוברת את p < 0.05, הוא בדיוק האופן שבו leaderboards מתמלאים בתוצאות בלתי ניתנות לשחזור.