Norma

Geometri dan aljabar pemetaan linear, vektor, dan matriks

Sebuah norma menjawab "seberapa besar vektor ini?" Ia mengukur panjang. Masalahnya, ada lebih dari satu cara masuk akal untuk mengukur panjang, dan pilihan itu diam-diam membentuk cara model machine learning berperilaku.

Pilihan default adalah norma L2 (Euclidean): jarak garis lurus dari titik asal ke ujung, menurut Pythagoras. Norma L1 sebaliknya menjumlahkan koordinat absolut, jarak "taksi," seolah kamu hanya bisa berjalan sepanjang jalan kisi. Norma L∞ hanya mengambil satu koordinat terbesar.

Bayangkan berjalan melintasi kota dari satu sudut ke sudut lainnya. Jarak lurus sejauh mata memandang adalah norma L2 — apa yang akan diterbangkan oleh drone. Tetapi jika jalanan memaksa Anda untuk bepergian hanya mengikuti pola grid, jarak blok kota yang benar-benar Anda tempuh adalah norma L1. Perjalanan yang sama, dua ukuran jujur dari "seberapa jauh," dan rute grid tidak pernah lebih pendek dari jarak terbang burung.

Di mana ini berlaku dalam MLNorma adalah regularisasi. L2 weight decay memberi penalti ‖w‖₂² dan menarik setiap bobot perlahan menuju nol, menjaga model tetap halus. Regularisasi L1 memberi penalti ‖w‖₁ dan mendorong banyak bobot menjadi tepat nol, menghasilkan model sparse yang memilih fitur (sudut belah ketupat di atas adalah alasannya). Norma gradien ‖∇L‖₂ dipantau selama training, dan "gradient clipping" menskalakannya…

▶ Norma

← Produk Dot Kombinasi Linear & Span →