Normen

Meetkunde en algebra van lineaire afbeeldingen, vectoren en matrices

Een norm beantwoordt "hoe groot is deze vector?" Het meet lengte. Het addertje is dat er meer dan één zinnige manier is om lengte te meten, en de keuze vormt stilletjes hoe machine-learning modellen zich gedragen.

De standaard is de L2 (Euclidische) norm: de rechte-lijn afstand van de oorsprong tot de top, volgens Pythagoras. De L1-norm telt daarentegen de absolute coördinaten op, de "taxi"-afstand, alsof je alleen langs raster-straten kon reizen. De L∞-norm neemt slechts de enkele grootste coördinaat.

Stel je voor dat je door de stad loopt van de ene hoek naar de andere. De hemelsbrede afstand in een rechte lijn is de L2 norm — wat een drone zou vliegen. Maar als straten je dwingen om alleen langs het raster te reizen, is de stadsblokafstand die je daadwerkelijk loopt de L1 norm. Dezelfde reis, twee eerlijke maten van "hoe ver," en de rasterroute is nooit korter dan de hemelsbrede route.

Waar dit voorkomt in MLNormen zijn regularisatie. L2-gewichtsverval bestraft ‖w‖₂² en trekt elk gewicht zachtjes naar nul, wat het model glad houdt. L1-regularisatie bestraft ‖w‖₁ en drijft veel gewichten naar precies nul, wat een ijl, feature-selecterend model geeft (de ruithoeken hierboven zijn waarom). De gradiëntnorm ‖∇L‖₂ wordt tijdens training gemonitord, en "gradient clipping" herschaalt deze wanneer ze te groot…

▶ Normen

← Inwendig product Lineaire combinaties & opspansel →