Normas

Geometria e álgebra de aplicações lineares, vetores e matrizes

Uma norma responde à pergunta "quão grande é este vetor?". Ela mede o comprimento. A sutileza é que há mais de uma maneira sensata de medir comprimento, e essa escolha molda silenciosamente o comportamento dos modelos de machine learning.

A norma padrão é a norma L2 (euclidiana): a distância em linha reta da origem até a ponta, pelo teorema de Pitágoras. A norma L1, em vez disso, soma as coordenadas em valor absoluto, a distância de "táxi", como se só fosse possível viajar ao longo das ruas de uma grade. A norma L∞ toma apenas a maior das coordenadas.

Imagine andar pela cidade de uma esquina a outra. A distância em linha reta, em voo de pássaro, é a norma L2 — o que um drone voaria. Mas se as ruas forçam você a viajar apenas ao longo da grade, a distância de quarteirões que você realmente anda é a norma L1. Mesma viagem, duas medidas honestas de "quão longe", e a rota da grade nunca é mais curta que a do pássaro.

Onde isso aparece no MLAs normas são regularização. O weight decay L2 penaliza ‖w‖₂² e puxa cada peso suavemente em direção a zero, mantendo o modelo suave. A regularização L1 penaliza ‖w‖₁ e leva muitos pesos a exatamente zero, dando um modelo esparso e seletor de variáveis (os cantos do losango acima são a razão disso). A norma do gradiente ‖∇L‖₂ é monitorada durante o treino, e o gradient clipping reescala-a quando…
▶ Normas
← Produto EscalarCombinações Lineares & Espaço Gerado →