Calcolo a una variabile dai primi principi
La vera ricompensa di Taylor nell'ML è la linearizzazione: sostituire una funzione non lineare ostinata con la sua retta tangente vicino a un punto di interesse. Su un piccolo intervallo l'approssimazione lineare è quasi esatta, e le cose lineari sono molto più facili da analizzare, calcolare e ragionare.
La sigmoide σ(x) = 1/(1 + e⁻ˣ) è la familiare non linearità di compressione. Vicino a x = 0 passa per ½ con pendenza ¼, quindi la sua approssimazione lineare è:
Una mappa stradale di carta piatta tratta la Terra rotonda come un piano vicino a una città. Su pochi chilometri la curvatura è troppo minuscola per avere importanza, quindi il foglio piatto è abbastanza accurato per navigare, anche se il pianeta è in realtà una sfera. La linearizzazione fa lo stesso con una funzione: vicino a un punto scambia la curva reale con la retta tangente f(x) ≈ f(0) + f′(0)·x, abbastanza esatta localmente e molto più facile con cui lavorare.