Beziehungen zwischen Variablen

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Bisher stand jede Variable für sich. Die wirklich interessanten Fragen betreffen meist zwei Variablen auf einmal: Hängt die Lernzeit mit den Noten zusammen? Hängt die Modellgröße mit der Genauigkeit zusammen? Das erste Werkzeug ist ein Streudiagramm (ein Punkt pro Beobachtung, x gegen y), mit dem Ihr Auge einen Trend sofort erkennen kann.

Um eine lineare Tendenz in einer Zahl auszudrücken, verwenden Sie den Pearson-Korrelationskoeffizienten r. Er reicht von −1 bis +1: +1 ist eine perfekt aufsteigende Gerade, −1 eine perfekt absteigende Gerade und 0 bedeutet überhaupt keinen linearen Zusammenhang.

Je enger sich die Punkte im Diagramm an die angepasste Gerade schmiegen, desto näher liegt |r| bei 1. Streut man sie auseinander, wandert r gegen 0.

Wo das im ML vorkommtDie Korrelationsanalyse ist ein alltägliches ML-Werkzeug. Stark korrelierte Merkmale sind redundant; sie erhöhen die Varianz in linearen Modellen (Multikollinearität) und verschwenden Kapazität. Und bei der Auswahl eines Bewertungs-Benchmarks prüfen Sie, ob er mit der Kennzahl korreliert, die Sie tatsächlich interessiert; eine billige Proxy-Kennzahl ist nur nützlich, wenn sie der teuren, echten…

▶ Beziehungen zwischen Variablen

← Datenverteilungen Parameter & Schätzer →