Relations Entre Variables

Inférence, estimation et prise de décision à partir des données

Jusqu'ici chaque variable se tenait seule. Les vraies questions impliquent généralement deux variables à la fois : le temps d'étude est-il lié aux notes ? la taille du modèle est-elle liée à la précision ? Le premier outil est un nuage de points (un point par observation, x contre y), qui laisse votre œil repérer une tendance instantanément.

Pour mettre un nombre sur une tendance linéaire, utilisez le coefficient de corrélation de Pearson r. Il va de −1 à +1 : +1 est une droite montante parfaite, −1 une droite descendante parfaite, 0 aucune relation linéaire.

Dans la figure, plus les points épousent la droite ajustée, plus |r| est proche de 1. Éparpillez-les et r dérive vers 0.

Où cela apparaît en MLL'analyse de corrélation est un outil ML quotidien. Les features fortement corrélées sont redondantes ; elles enflent la variance dans les modèles linéaires (multicolinéarité) et gaspillent de la capacité. Et quand vous choisissez un benchmark d'évaluation, vous vérifiez s'il corrèle avec la métrique qui vous importe vraiment ; une métrique proxy bon marché n'est utile que si elle suit la vraie…

▶ Relations Entre Variables

← Distributions des Données Paramètres & Estimateurs →