Eindimensionale Analysis aus ersten Prinzipien
Der eigentliche Nutzen von Taylor im ML ist die Linearisierung: Man ersetzt eine widerspenstige nichtlineare Funktion durch ihre Tangente in der Nähe eines interessierenden Punktes. Über einen kleinen Bereich ist die lineare Näherung nahezu exakt, und lineare Dinge sind weitaus leichter zu analysieren, zu berechnen und zu durchdenken.
Die Sigmoidfunktion σ(x) = 1/(1 + e⁻ˣ) ist die vertraute stauchende Nichtlinearität. In der Nähe von x = 0 verläuft sie durch ½ mit der Steigung ¼, sodass ihre lineare Näherung lautet:
Eine flache Straßenkarte aus Papier behandelt die runde Erde in der Nähe einer Stadt wie eine Ebene. Über einige Kilometer ist die Krümmung zu winzig, um von Bedeutung zu sein, also ist das flache Blatt genau genug, um danach zu navigieren, obwohl der Planet in Wirklichkeit eine Kugel ist. Die Linearisierung macht dasselbe mit einer Funktion: In der Nähe eines Punktes tauscht sie die wahre Kurve gegen die Tangente f(x) ≈ f(0) + f′(0)·x aus, was lokal exakt genug ist und mit dem sich viel leichter arbeiten lässt.