Funkcje f: Rⁿ → R

Analiza wielowymiarowa od pierwszych zasad

Funkcja f: Rⁿ → R przyjmuje wektor i zwraca pojedynczą liczbę. Przykładem, który napędza uczenie maszynowe, jest funkcja straty: podaj na jej wejściu wszystkie wagi sieci, a otrzymasz jedną liczbę mówiącą, jak bardzo model się myli. Cały proces trenowania polega na poszukiwaniu minimum tej funkcji.

Dla dwóch zmiennych wejściowych można to faktycznie sobie wyobrazić: z = f(x, y) to powierzchnia, krajobraz wzgórz i dolin unoszący się nad płaszczyzną xy. Wysokość w każdym punkcie (x, y) to wartość funkcji.

Wyobraź sobie powietrze w pokoju: stań w dowolnym miejscu, a termometr wskaże dokładnie jedną temperaturę. To jest funkcja f: R² → R w przebraniu: pozycja (x, y) wchodzi na wejściu, a wychodzi jedna liczba (ciepło w tym miejscu). Cały pokój staje się krajobrazem ciepłych i chłodnych plam, wyższych w pobliżu grzejnika, niższych przy oknie.

Gdzie to występuje w MLGdy obserwujesz, jak krzywa straty spada podczas treningu, patrzysz na wędrówkę po jednej z tych powierzchni. Strata L(w₁, …, wₙ) to funkcja Rⁿ → R nad przestrzenią wag, z n rzędu milionów lub miliardów. Krzywa spadku straty na twoim ekranie to tylko jednowymiarowy rzut tej wędrówki na oś czasu. Obrazki 'płaskich vs. ostrych minimów', o które spierają się badacze, to dosłownie wykresy poziomicowe…
▶ Funkcje f: Rⁿ → R
← Wektory i geometria RⁿFunkcje f: Rⁿ → Rᵐ →