Relazioni tra Variabili

Inferenza, stima e processo decisionale dai dati

Finora ogni variabile è stata considerata da sola. Le domande reali coinvolgono di solito due variabili insieme: il tempo di studio è legato ai voti? la dimensione del modello è legata all'accuratezza? Il primo strumento è il diagramma a dispersione (scatter plot): un punto per osservazione, x contro y, che permette al tuo occhio di cogliere subito un andamento.

Per dare un numero a un andamento lineare, si usa il coefficiente di correlazione di Pearson r. Varia da −1 a +1: +1 indica una retta crescente perfetta, −1 una retta decrescente perfetta, 0 nessuna relazione lineare.

Nella figura, quanto più i punti aderiscono alla retta di regressione, tanto più |r| si avvicina a 1. Sparpagliali e r scivola verso 0.

Dove si trova nel MLL'analisi di correlazione è uno strumento ML quotidiano. Le feature fortemente correlate sono ridondanti; gonfiano la varianza nei modelli lineari (multicollinearità) e sprecano capacità. E quando scegli un benchmark di valutazione, verifichi se è correlato con la metrica che ti interessa davvero: una metrica proxy economica è utile solo se segue quella reale e costosa.
▶ Relazioni tra Variabili
← Distribuzioni dei datiParametri e Stimatori →