Diagnostica del Modello

Inferenza, stima e processo decisionale dai dati

Adattare una regressione è la parte facile. La domanda più difficile è se ci si può fidare. La diagnostica del modello è l'insieme dei controlli che individuano un modello che si adatta ai numeri ma viola le assunzioni sottostanti. L'oggetto più utile da osservare è il residuo: e = y − ŷ, ciò che il modello non è riuscito a spiegare.

Se il modello è corretto, i residui dovrebbero apparire come rumore puro: nessun pattern, dispersione costante, all'incirca simmetrici. Lo strumento principale è il grafico dei residui: i residui sull'asse y contro i valori predetti (o un input) sull'asse x. Stai cercando una struttura che non dovrebbe esserci.

Un buon medico non si ferma al nominare la malattia; controlla quali sintomi rimangono dopo il trattamento. Se un paziente ha ancora una tosse ostinata, la diagnosi ha perso qualcosa. I residui sono i sintomi rimanenti di un modello: la parte dei dati che la linea adattata non è riuscita a spiegare. Se mostrano un pattern chiaro invece di innocuo rumore casuale, anche il modello ha perso qualcosa.

Dove si trova nel MLL'analisi dei residui è l'antenato statistico delle curve di apprendimento e dell'analisi degli errori nell'ML. "Loss di addestramento ≠ loss di validazione" è una diagnostica: un grande scarto segnala overfitting (alta varianza), proprio come residui con pattern segnalano un modello mal specificato. Suddividere gli errori per sottogruppo per scoprire dove il modello fallisce sistematicamente è…
▶ Diagnostica del Modello
← Regressione Lineare MultiplaRegressione Regolarizzata →