Applicazioni

Calcolo a una variabile dai primi principi

La vera ricompensa di Taylor nell'ML è la linearizzazione: sostituire una funzione non lineare ostinata con la sua retta tangente vicino a un punto di interesse. Su un piccolo intervallo l'approssimazione lineare è quasi esatta, e le cose lineari sono molto più facili da analizzare, calcolare e ragionare.

La sigmoide σ(x) = 1/(1 + e⁻ˣ) è la familiare non linearità di compressione. Vicino a x = 0 passa per ½ con pendenza ¼, quindi la sua approssimazione lineare è:

Una mappa stradale di carta piatta tratta la Terra rotonda come un piano vicino a una città. Su pochi chilometri la curvatura è troppo minuscola per avere importanza, quindi il foglio piatto è abbastanza accurato per navigare, anche se il pianeta è in realtà una sfera. La linearizzazione fa lo stesso con una funzione: vicino a un punto scambia la curva reale con la retta tangente f(x) ≈ f(0) + f′(0)·x, abbastanza esatta localmente e molto più facile con cui lavorare.

Dove si trova nel MLLa linearizzazione è un riflesso fondamentale dell'ML. Le approssimazioni per angoli piccoli e input piccoli semplificano l'analisi delle attivazioni (sigmoide, GELU, softmax) vicino al loro punto di lavoro. Linearizzare una rete attorno ai pesi attuali dà la vista del neural tangent kernel e sta alla base di come ragioniamo sulle dinamiche di addestramento. E ogni ottimizzatore del primo ordine,…

▶ Applicazioni

← Serie di Taylor Chiave Vettori in Rⁿ →