Ukuran Penyebaran

Inferensi, estimasi, dan pengambilan keputusan dari data

Pusat memberi tahu di mana data berada; penyebaran memberi tahu berapa banyak ia bergoyang di sekitar pusat itu. Dua dataset bisa berbagi mean sama dan sangat berbeda: satu rapat, satu tersebar. Penyebaran adalah bedanya.

Kuda kerja adalah varians: rata-rata jarak kuadrat dari mean. Akarnya, deviasi standar, hidup dalam unit sama dengan data, jadi lebih mudah diinterpretasi.

Dua kelas mengikuti kuis yang sama dan keduanya rata-rata 72, jadi di atas kertas mereka terlihat identik. Tapi kelas A mencetak 70, 72, 74 (semuanya berkumpul bersama) sedangkan kelas B mencetak 50, 72, 94 (tersebar luas). Titik tengah yang sama, cerita yang sama sekali berbeda: sebaran adalah secara tepat angka yang membedakan mereka.

Di mana ini berlaku dalam MLPenyebaran ada di mana-mana di reliabilitas ML. Varians gradien lintas mini-batch mengontrol seberapa noisy setiap langkah pelatihan; varians tinggi berarti penurunan gemetar. Dan saat Anda melaporkan akurasi model, deviasi standar lintas seed acak yang memberi tahu apakah perbaikan "+0.3%" nyata atau sekadar noise. Hasil tanpa sebarannya adalah setengah hasil.

▶ Ukuran Penyebaran

← Ukuran Pusat Distribusi Data →