Pochodna

Analiza jednowymiarowa od pierwszych zasad

Pochodna odpowiada w zasadzie na jedno jedyne pytanie: jak szybko zmienia się dana funkcja w jednym, konkretnym momencie? Od strony geometrycznej jest to nachylenie krzywej w dokładnie jednym punkcie, równe nachyleniu stycznej, która dotyka w tym miejscu krzywej.

Pomyśl o prędkościomierzu w poruszającym się samochodzie. Twoja średnia prędkość w ciągu godziny to całkowity dystans podzielony przez całkowity czas, ale wskazówka pokazuje coś ostrzejszego: dokładnie jak szybko jedziesz w tej właśnie chwili. Pochodna to ta wskazówka, tempo zmian zamrożone w jednym momencie zamiast rozmazanego na przedziale.

Ale uwaga, pojawia się problem. Obliczenie nachylenia wymaga dwóch punktów — musimy przecież podzielić zmianę wartości przez zmianę argumentu. Pojedynczy punkt nie daje nam więc żadnego wymiernego punktu odniesienia. Jak zatem jeden punkt może w ogóle mieć jakieś nachylenie? Sztuczka polega na odpowiednim zbliżaniu się.

Gdzie to występuje w MLGradient napędzający proces treningu sieci neuronowej to wprost dokładnie ta sama pochodna, tyle że w zastosowaniu do funkcji straty. Wielkość ∂L/∂w reprezentuje nachylenie krzywej straty w przypadku zmiany pojedynczej wagi w. Jej znak mówi nam, w którą stronę musimy pójść, by zminimalizować stratę, natomiast jej wartość bezwzględna informuje o tym, jak bardzo funkcja straty jest czuła na…
▶ Pochodna
← CiągłośćRóżniczkowalność →