Normas

Geometría y álgebra de aplicaciones lineales, vectores y matrices

Una norma responde "¿cuán grande es este vector?" Mide la longitud. La trampa es que hay más de una manera sensata de medir la longitud, y la elección moldea silenciosamente cómo se comportan los modelos de aprendizaje automático.

Por defecto es la L2 (Euclidiana) norma: la distancia en línea recta desde el origen hasta la punta, según Pitágoras. La L1 norma suma en cambio los valores absolutos de las coordenadas, la "distancia del taxicab", como si solo pudieras viajar por calles cuadradas. La L∞ norma toma simplemente el mayor valor absoluto.

Imagina caminar por la ciudad de una esquina a otra. La distancia en línea recta, a vuelo de pájaro, es la norma L2 — lo que volaría un dron. Pero si las calles te obligan a viajar solo por la cuadrícula, la distancia de cuadras de la ciudad que realmente caminas es la norma L1. Es el mismo viaje, dos medidas honestas de "qué tan lejos", y la ruta por la cuadrícula nunca es más corta que la del pájaro.

Dónde aparece en el MLLas normas son regularización. L2 weight decay penaliza ‖w‖₂² y tira cada peso suavemente hacia cero, manteniendo el modelo liso. L1 regularization penaliza ‖w‖₁ y fuerza muchos pesos a ser exactamente cero, dando un modelo esparseo, de selección de características (las esquinas diamantadas arriba son por qué). El gradient norm ‖∇L‖₂ se monitorea durante el entrenamiento, y "gradient clipping" lo…

▶ Normas

← Producto Punto Combinaciones Lineales y Espacio Generado →