Normas

Geometria e álgebra das aplicações lineares, vetores e matrizes

Uma norma responde à pergunta "quão grande é este vetor?". Ela mede o comprimento. A subtileza é que há mais de uma maneira sensata de medir comprimento, e essa escolha molda silenciosamente o comportamento dos modelos de machine learning.

A norma padrão é a norma L2 (euclidiana): a distância em linha reta da origem até à ponta, pelo teorema de Pitágoras. A norma L1, em vez disso, soma as coordenadas em valor absoluto, a distância de "táxi", como se só fosse possível viajar ao longo das ruas de uma grelha. A norma L∞ toma apenas a maior das coordenadas.

Imagine atravessar a cidade a pé de uma esquina para outra. A distância em linha reta é a norma L2 — o que um drone voaria. Mas se as ruas o forçam a viajar apenas ao longo da grelha, a distância dos quarteirões da cidade que realmente anda é a norma L1. A mesma viagem, duas medidas honestas de "quão longe", e a rota da grelha nunca é mais curta do que a da linha reta.

Onde isto aparece no MLAs normas são regularização. O weight decay L2 penaliza ‖w‖₂² e puxa cada peso suavemente em direção a zero, mantendo o modelo suave. A regularização L1 penaliza ‖w‖₁ e leva muitos pesos a exatamente zero, dando um modelo esparso e seletor de variáveis (os cantos do losango acima são a razão disso). A norma do gradiente ‖∇L‖₂ é monitorizada durante o treino, e o gradient clipping reescala-a…

▶ Normas

← Produto Escalar Combinações Lineares & Espaço Gerado →