Datenverteilungen

Inferenz, Schätzung und Entscheidungsfindung aus Daten

Ein einzelner Mittelwert und eine einzelne Streuung sind nur zwei Zahlen. Die volle Form der Daten (ihre Verteilung) enthält viel mehr. Der schnellste Weg, sie zu sehen, ist ein Histogramm: Teilen Sie den Wertebereich in Klassen auf und zählen Sie, wie viele Werte in jede fallen. Eine geglättete Version davon ist eine Dichtefunktion.

Sobald Sie die Form erkennen können, sind zwei Fragen entscheidend: Ist sie symmetrisch oder schief, und sind ihre Schwänze schwer oder leicht?

Die Schiefe misst die Asymmetrie. Eine rechtsschiefe (positiv schiefe) Verteilung hat einen langen Schwanz, der sich nach rechts erstreckt: Einkommen, Wartezeiten, Dateigrößen. Eine linksschiefe Verteilung läuft nach links aus. Bei einer rechtsschiefen Form liegt der Mittelwert rechts vom Median, vom Schwanz herausgezogen.

Wo das im ML vorkommtDie Verteilungsform treibt echte ML-Entscheidungen voran. Aktivierungsverteilungen innerhalb eines Netzwerks können abdriften und schwere Schwänze entwickeln, weshalb es Batch- und Layer-Normalisierung gibt. Verlustverteilungen über mehrere Batches zeigen, ob Ihr Modell gleichmäßig versagt oder an einer schwerschwänzigen Minderheit schwieriger Beispiele scheitert. Und schwere Schwänze sind der…

▶ Datenverteilungen

← Maße der Streuung Beziehungen zwischen Variablen →