Il Framework

Inferenza, stima e processo decisionale dai dati

Il test di ipotesi è un modo disciplinato per rispondere alla domanda "questo effetto è reale, oppure potrebbe essere solo rumore?", che è esattamente la domanda "il modello A è davvero migliore del modello B?". Si parte assumendo che non stia accadendo nulla e ci si chiede quanto sarebbero sorprendenti i propri dati se questo fosse vero.

Si confrontano due affermazioni. L'ipotesi nulla H₀ è il default noioso: nessun effetto, nessuna differenza. L'alternativa H₁ è ciò che sospetti: un effetto c'è. Calcoli una statistica test dai dati e ti chiedi: se H₀ fosse vera, quanto sarebbe estremo questo valore?

Se la statistica è così estrema da verificarsi solo di rado sotto H₀, allora rifiuti H₀. In caso contrario non la rifiuti (attenzione: mai "accetti", perché l'assenza di prove non è prova di assenza).

Dove si trova nel MLOgni rivendicazione di "+0,5% di accuratezza" è implicitamente un test di ipotesi. H₀: i due modelli sono ugualmente buoni; il divario osservato è rumore di campionamento. Se salti il test, spedirai miglioramenti che svaniscono al prossimo split dei dati, rincorrendo errori di Tipo I. L'intera ragione per cui i benchmark ML riportano la varianza tra i seed è proprio per permetterti di chiederti…

▶ Il Framework

← Intervalli di Confidenza p-value →