Verbanden Tussen Variabelen

Inferentie, schatting en besluitvorming uit data

Tot nu toe stond elke variabele op zichzelf. De echte vragen gaan meestal over twee variabelen tegelijk: hangt studietijd samen met cijfers? hangt modelgrootte samen met nauwkeurigheid? Het eerste hulpmiddel is een spreidingsdiagram (één punt per waarneming, x tegen y), waarmee je oog meteen een trend kan spotten.

Om een getal te plakken op een lineaire trend, gebruik je de Pearson-correlatiecoëfficiënt r. Hij loopt van −1 tot +1: +1 is een perfecte stijgende lijn, −1 een perfecte dalende lijn, 0 helemaal geen lineair verband.

In de figuur geldt: hoe dichter de punten tegen de gefitte lijn aankruipen, hoe dichter |r| bij 1 ligt. Spreid ze uit en r drijft richting 0.

Waar dit voorkomt in MLCorrelatieanalyse is een dagelijks ML-hulpmiddel. Sterk gecorreleerde kenmerken zijn overbodig; ze blazen de variantie op in lineaire modellen (multicollineariteit) en verspillen capaciteit. En bij het kiezen van een evaluatiebenchmark controleer je of die correleert met de maat die je werkelijk belangrijk vindt; een goedkope proxymaat is alleen nuttig als hij de dure echte maat volgt.
▶ Verbanden Tussen Variabelen
← Verdelingen van GegevensParameters & Schatters →