Disuguaglianze di Concentrazione (breve)

Inferenza, stima e processo decisionale dai dati

Finora la statistica ha riguardato per lo più medie e comportamenti asintotici. Le disuguaglianze di concentrazione pongono una domanda più incisiva e a campione finito: quanto è probabile che una quantità casuale cada lontano dalla sua media? Le loro risposte sono la spina dorsale matematica che spiega perché il machine learning può offrire delle garanzie.

La più elementare, che richiede solo una variabile non negativa e la sua media, è la disuguaglianza di Markov:

Afferma che una variabile non negativa non può, di frequente, valere molte volte la sua media. Se la media è piccola, i valori grandi devono essere rari. È una stima grossolana, ma non richiede quasi nulla.

Dove si trova nel MLIl limite di Hoeffding è il cuore della teoria della generalizzazione: è il motivo per cui l'errore misurato di un modello su un insieme di test finito è dimostrabilmente vicino al suo errore vero, con alta probabilità, ovvero la giustificazione formale per fidarsi di un punteggio di test. È il motore del PAC learning ("Probably Approximately Correct"): con abbastanza campioni, lo scarto tra le…

▶ Disuguaglianze di Concentrazione (breve)

← Expectation-Maximization (EM)