Maße der Streuung

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Ein Mittelwert sagt Ihnen, wo die Daten liegen; die Streuung zeigt, wie stark sie um dieses Zentrum schwanken. Zwei Datensätze können denselben Mittelwert haben und trotzdem grundverschieden sein: der eine eng gruppiert, der andere weit verstreut. Die Streuung ist der Unterschied.

Das Arbeitstier ist die Varianz: der durchschnittliche quadrierte Abstand vom Mittelwert. Ihre Quadratwurzel, die Standardabweichung, hat dieselben Einheiten wie die Daten und ist daher einfacher zu interpretieren.

Zwei Klassen schreiben dasselbe Quiz und beide haben einen Durchschnitt von 72, also sehen sie auf dem Papier identisch aus. Aber Klasse A erzielte 70, 72, 74 (alle dicht beieinander), während Klasse B 50, 72, 94 erzielte (weit verstreut). Gleiches Zentrum, völlig unterschiedliche Geschichten: Die Streuung ist genau die Zahl, die sie voneinander unterscheidet.

Wo das im ML vorkommtStreuung ist in der Zuverlässigkeit von ML allgegenwärtig. Die Gradientenvarianz innerhalb eines Mini-Batches bestimmt, wie verrauscht jeder Trainingsschritt ist; hohe Varianz bedeutet einen unruhigen Abstieg. Und wenn Sie die Genauigkeit eines Modells melden, ist es die Standardabweichung über zufällige Seeds, die Ihnen sagt, ob eine Verbesserung von "+0,3 %" real oder nur Rauschen ist. Ein…

▶ Maße der Streuung

← Maße der zentralen Tendenz Datenverteilungen →