Aproksymacja liniowa

Analiza wielowymiarowa od pierwszych zasad

Z bliska każda gładka powierzchnia wygląda płasko, podobnie jak Ziemia wydaje się płaska pod naszymi stopami. Aproksymacja liniowa zastępuje krzywą funkcję w pobliżu punktu płaską płaszczyzną styczną, która właśnie tam jej dotyka. Gradient dostarcza nachylenia tej płaszczyzny.

Odczytajmy to słowami: nowa wartość ≈ stara wartość plus gradient pomnożony skalarnie przez krok, który wykonaliśmy. Ten iloczyn skalarny to pochodna kierunkowa razy długość kroku, najlepsze liniowe przybliżenie tego, o ile zmieniła się f.

Przyciśnij małą, płaską naklejkę do piłki plażowej, a tam, gdzie leży, zakrzywiona piłka wygląda na idealnie płaską. Przybliżenie liniowe to ta naklejka: płaska płaszczyzna styczna, która dotyka powierzchni w jednym punkcie i zastępuje krzywą w pobliżu. Jeśli oddalisz się zbyt daleko w poprzek piłki, naklejka odrywa się od powierzchni — prognoza oddala się od rzeczywistości.

Gdzie to występuje w MLPojedynczy krok metody spadku gradientowego jest aproksymacją liniową w działaniu. Aktualizacja w ← w − η∇L zakłada, że zmiana funkcji straty jest dobrze przewidywana przez człon liniowy ∇L·δ. Gdy krok jest zbyt duży, zignorowana krzywizna (człon ‖δ‖²) zaczyna dominować i strata może przeskoczyć cel lub się rozbiec. Współczynnik uczenia η utrzymuje Cię w obszarze, gdzie traktowanie powierzchni…

▶ Aproksymacja liniowa

← Pochodna w kierunku Macierz Jacobiego →