El Gradiente

Cálculo multivariable desde primeros principios

Recoge cada derivada parcial de f en un vector y obtienes el gradiente, escrito ∇f ("grad f"). Cada optimizador en aprendizaje profundo se basa en este objeto, por lo que merece su lugar central en el curso.

El gradiente no es solo un registro. Como un vector en el espacio de entrada, tiene una dirección y una longitud, ambas con significado. La dirección es la del ascenso más pronunciado: apunta hacia ∇f y la función sube tan rápido como puede. Su longitud ‖∇f‖ indica exactamente cuán empinada es esa subida.

Imagínate de pie en una colina cubierta de hierba con niebla. El gradiente ∇f es la flecha que apunta directamente hacia arriba en la parte más empinada de la pendiente, y su longitud te dice cuán agotadora es esa subida. Coloca una pelota y suéltala: rueda en la dirección exactamente opuesta, tomando el camino más rápido hacia abajo.

Dónde aparece en el MLParado sobre la superficie de pérdida, quieres avanzar hacia abajo tan rápido como sea posible. El gradiente ∇L apunta hacia el ascenso más pronunciado y corta directamente a través de las curvas de nivel. Para bajar (descenso por gradiente), avanza en dirección opuesta: w ← w − η∇L, la actualización detrás del SGD, Adam y cualquier otro optimizador. La retropropagación existe por una razón:…
▶ El Gradiente
← Parciales de Orden SuperiorDerivada Direccional →