Inferenza, stima e processo decisionale dai dati
Finora ogni variabile è stata considerata da sola. Le domande reali coinvolgono di solito due variabili insieme: il tempo di studio è legato ai voti? la dimensione del modello è legata all'accuratezza? Il primo strumento è il diagramma a dispersione (scatter plot): un punto per osservazione, x contro y, che permette al tuo occhio di cogliere subito un andamento.
Per dare un numero a un andamento lineare, si usa il coefficiente di correlazione di Pearson r. Varia da −1 a +1: +1 indica una retta crescente perfetta, −1 una retta decrescente perfetta, 0 nessuna relazione lineare.
Nella figura, quanto più i punti aderiscono alla retta di regressione, tanto più |r| si avvicina a 1. Sparpagliali e r scivola verso 0.