p-value

Inferenza, stima e processo decisionale dai dati

Il valore p trasforma la domanda "quanto è estrema la mia statistica test?" in un singolo numero. È la probabilità di osservare dati almeno altrettanto estremi dei tuoi, assumendo H₀ vera. Un valore p minuscolo significa "questi dati sarebbero molto sorprendenti se davvero non ci fosse alcun effetto", il che è evidenza contro H₀.

La regola di decisione è meccanica: scegli in anticipo una soglia α (comunemente 0,05), poi rifiuta H₀ se p < α. Un valore p piccolo non dimostra H₁; dice soltanto che l'ipotesi nulla spiega male i dati.

Un valore p è un controllo dei colpi di fortuna: se in realtà non stesse succedendo nulla, quanto sarebbe sorprendente un risultato come il tuo? Supponi che un amico sostenga che una moneta sia non truccata eppure ottenga nove teste di fila — un valore p quantifica proprio quanto sarebbe rara quella serie sotto la noiosa storia 'è non truccata' H₀. Più piccolo è il numero, più è difficile liquidare il risultato come fortuna.

Dove si trova nel MLNel ML, un valore p ti dice se la vittoria del modello A sul modello B in un benchmark è segnale o rumore. Ma il rischio è concreto: con un insieme di test gigantesco, un guadagno di accuratezza dello 0,01% può risultare 'significativo' e tuttavia del tutto privo di rilevanza pratica. E il p-hacking, cioè provare configurazioni finché una non supera p < 0,05, è esattamente il motivo per cui le…
▶ p-value
← Il Frameworkt-test →