Distribusi Data

Inferensi, estimasi, dan pengambilan keputusan dari data

Satu pusat dan satu sebaran sekadar dua angka. Bentuk penuh data (distribusinya) membawa jauh lebih banyak. Cara tercepat melihatnya adalah histogram: potong rentang menjadi bin dan hitung berapa nilai jatuh di setiap. Versi yang dihaluskan adalah density plot.

Begitu Anda bisa melihat bentuk, dua pertanyaan penting: apakah simetris atau miring, dan apakah ekornya tebal atau tipis?

Kemiringan mengukur asimetri. Distribusi miring kanan (positif) punya ekor panjang membentang ke kanan: pendapatan, waktu tunggu, ukuran file. Yang miring kiri menyeret ke kiri. Untuk bentuk miring kanan, mean berada di kanan median, ditarik keluar oleh ekor.

Di mana ini berlaku dalam MLBentuk distribusi mendorong keputusan ML nyata. Distribusi aktivasi di dalam jaringan bisa bergeser dan mengembangkan ekor tebal, mengapa batch/layer normalization ada. Distribusi loss lintas batch mengungkap apakah model gagal seragam atau tersedak pada minoritas ekor-tebal contoh sulit. Dan ekor tebal mengapa loss robust (Huber) dan gradient clipping adalah praktik standar.
▶ Distribusi Data
← Ukuran PenyebaranHubungan Antar Variabel →