Normlar

Geometry and algebra of linear maps, vectors, and matrices

Bir norm, "bu vektör ne kadar büyük?" sorusunu yanıtlar. Uzunluğu ölçer. İşin püf noktası, uzunluğu ölçmenin makul birden fazla yolu olması ve bu seçimin makine öğrenmesi modellerinin nasıl davrandığını sessizce şekillendirmesidir.

Varsayılan, L2 (Öklid) normudur: Pisagor ile orijinden uca düz çizgi mesafesi. L1 normu bunun yerine mutlak koordinatları toplar, yani "taksimetre" mesafesi, sanki yalnızca ızgara sokakları boyunca yol alabiliyormuşsun gibi. L∞ normu ise yalnızca tek bir en büyük koordinatı alır.

Şehrin bir köşesinden diğerine yürüdüğünüzü hayal edin. Düz çizgi, kuş uçuşu mesafe L2 normudur — bir dronun uçacağı şey. Ancak sokaklar sizi yalnızca ızgara boyunca seyahat etmeye zorlarsa, gerçekten yürüdüğünüz şehir bloğu mesafesi L1 normudur. Aynı yolculuk, "ne kadar uzak" olduğunun iki dürüst ölçüsü ve ızgara rotası asla kuş uçuşundan daha kısa değildir.

Bunun ML'deki yeriNormlar düzenlileştirmenin ta kendisidir. L2 ağırlık sönümü (weight decay) ‖w‖₂²'yi cezalandırır ve her ağırlığı nazikçe sıfıra doğru çeker, modeli pürüzsüz tutar. L1 düzenlileştirmesi ‖w‖₁'i cezalandırır ve birçok ağırlığı tam olarak sıfıra sürer, seyrek, özellik seçen bir model verir (yukarıdaki baklava köşeleri bunun nedenidir). Gradyan normu ‖∇L‖₂ eğitim sırasında izlenir ve "gradyan kırpma"…
▶ Normlar
← Skaler ÇarpımLineer Kombinasyonlar ve Gerilen Uzay →