Vista previa del Descenso del Gradiente

Cálculo de una variable desde primeros principios

Supongamos que quieres el punto más bajo de una curva pero solo puedes ver el terreno directamente debajo de tus pies — sientes la pendiente, nada más. ¿Qué haces? Simple: da un paso en dirección a la colina, luego sientes nuevamente, luego das otro paso. Repite. Eso es descenso del gradiente, el algoritmo que entrena prácticamente todos los modelos de IA modernos.

Imagina que caminas cuesta abajo en una niebla espesa tan densa que no puedes ver un paso por delante. No puedes divisar el fondo del valle, pero todavía puedes sentir con tu pie hacia qué lado se inclina el suelo hacia abajo, y dar un paso en esa dirección. Sentir, paso, sentir, paso. El descenso de gradiente es exactamente esta marcha ciega y paciente hacia el terreno más bajo.

Escribido como una regla que actualiza tu posición en cada paso:

Dónde aparece en el MLEsta sola línea es el corazón de cada optimizador en aprendizaje profundo. La actualización del peso es idéntica en espíritu: w ← w − η∇L, donde ∇L es simplemente la derivada multidimensional (el gradiente) del próximo curso. SGD, Adam, RMSProp y el resto son refinamientos de este esqueleto — tamaños de paso más inteligentes, impulso, tasas por parámetro — pero los huesos son exactamente la regla…
▶ Vista previa del Descenso del Gradiente
← ConvexidadProtocolo Sistemático de Esbozo →