Wielowymiarowy Taylor

Analiza wielowymiarowa od pierwszych zasad

Przybliżenie liniowe (Lekcja 9) wykorzystywało tylko gradient i dostarczało płaską płaszczyznę styczną. Dodaj następny wyraz, zbudowany z hesjanu, a otrzymasz przybliżenie kwadratowe: paraboloidę, która przylega do powierzchni, uwzględniając jej krzywiznę, a nie tylko samo nachylenie.

Spójrz na to równanie jak na trzy elementy: f(x) to obecna wysokość, ∇fᵀδ to poprawka liniowa (nachylenie), a ½δᵀHδ to poprawka kwadratowa (krzywizna). Ostatni wyraz jest w istocie formą kwadratową, a znak tej poprawki zależy bezpośrednio od wartości własnych hesjanu.

Płaska płaszczyzna styczna spoczywająca na zakrzywionej powierzchni jest jak umieszczenie sztywnego szkiełka na twoim oku: dotyka go w jednym miejscu, ale wszędzie indziej są szczeliny. Soczewka kontaktowa działa lepiej, ponieważ jest zakrzywiona, aby pasować do powierzchni oka, dopasowując się nie tylko do tego, gdzie znajduje się oko, ale także do tego, jak się zakrzywia. Człon hesjanu ½δᵀHδ to ta wbudowana krzywizna: pozwala on, by przybliżenie przylegało do powierzchni, zamiast tylko na niej spoczywać.

Gdzie to występuje w MLZamiast wolno schodzić w dół małymi krokami gradientu, możesz dopasować paraboloidę do lokalnej powierzchni straty i skoczyć bezpośrednio na jej dno. Tak działa metoda Newtona: precyzyjnie minimalizuje lokalną funkcję kwadratową, wykonując krok δ = −H⁻¹∇f, co zbiega się znacznie szybciej niż zwykły spadek gradientowy w sytuacjach, gdy krzywizna ulega gwałtownym zmianom. Adam oraz podobne do niego…

▶ Wielowymiarowy Taylor

← Optymalizacja z ograniczeniami Całki podwójne →