Norme

Geometria e algebra di applicazioni lineari, vettori e matrici

Una norma risponde alla domanda "quanto è grande questo vettore?". In altre parole, ne misura la lunghezza. Il punto è che esiste più di un modo sensato di misurare la lunghezza, e questa scelta modella in modo silenzioso il comportamento dei modelli di machine learning.

La norma predefinita è la norma L2 (euclidea): la distanza in linea retta dall'origine alla punta, per il teorema di Pitagora. La norma L1, invece, somma i valori assoluti delle coordinate, ovvero la distanza "taxicab", come se potessi muoverti solo lungo le strade di una griglia. La norma L∞, infine, prende soltanto la coordinata più grande in valore assoluto.

Immagina di attraversare la città da un angolo all'altro a piedi. La distanza in linea d'aria è la norma L2 — quello che volerebbe un drone. Ma se le strade ti costringono a viaggiare solo lungo la griglia, la distanza dei blocchi della città che cammini effettivamente è la norma L1. Stesso viaggio, due misurazioni oneste di "quanto lontano", e il percorso a griglia non è mai più corto di quello in linea d'aria.

Dove si trova nel MLLe norme sono regolarizzazione. Il weight decay L2 penalizza ‖w‖₂² e tira ogni peso delicatamente verso lo zero, mantenendo liscio il modello. La regolarizzazione L1 penalizza ‖w‖₁ e porta molti pesi esattamente a zero, dando un modello sparso che seleziona le feature (gli angoli del rombo visti sopra ne sono il motivo). La norma del gradiente ‖∇L‖₂ viene monitorata durante l'addestramento, e il…
▶ Norme
← Prodotto ScalareCombinazioni Lineari e Spazio Generato →