Regresión Regularizada

Inferencia, estimación y toma de decisiones a partir de datos

OLS encuentra los coeficientes que ajustan mejor los datos de entrenamiento, lo cual es exactamente el problema cuando tienes muchas características o poca data: ajusta también al ruido y los coeficientes se disparan a valores excesivos. La regresión regularizada controla esto añadiendo una penalización que castiga a los grandes coeficientes, sacrificando un poco del ajuste en el entrenamiento por una mejor generalización.

La regresión de Ridge agrega una penalización L2, la longitud al cuadrado del vector de coeficientes:

El parámetro λ controla la fuerza. λ = 0 es OLS puro; a medida que λ crece, cada coeficiente se reducirá hacia cero, suavizando el modelo. Esta reducción también corrige (XᵀX)⁻¹ mal condicionado del último lección: ridge añade λI, garantizando la invertibilidad.

Dónde aparece en el MLLa penalización de ridge es decadencia del peso, el regularizador más común en aprendizaje profundo, incorporado en cada optimizador. Y como viste en la lección 8, ridge = MAP con una priori Gaussiana, lasso = MAP con una priori Laplace. Regularización, decadencia de pesos y priors bayesianos son tres nombres para la misma idea: preferir pesos más simples a menos que los datos argumenten lo…

▶ Regresión Regularizada

← Diagnostics del Modelo Descomposición Bias-Variance →