Cálculo de uma variável a partir dos primeiros princípios
O verdadeiro proveito de Taylor em ML é a linearização: substituir uma função não-linear renitente pela sua reta tangente perto de um ponto de interesse. Num pequeno intervalo, a aproximação linear é quase exata, e o que é linear é muito mais fácil de analisar, calcular e compreender.
A sigmoide σ(x) = 1/(1 + e⁻ˣ) é a conhecida não-linearidade que comprime os valores. Perto de x = 0 passa por ½ com inclinação ¼, por isso a sua aproximação linear é:
Um mapa de rua plano em papel trata a Terra redonda como um plano perto de uma cidade. Ao longo de alguns quilômetros a curvatura é muito pequena para importar, então a folha plana é precisa o suficiente para navegar por ela, mesmo a planeta sendo realmente uma esfera. A linearização faz o mesmo com uma função: perto de um ponto, ela troca a verdadeira curva pela linha tangente f(x) ≈ f(0) + f′(0)·x, exata o suficiente localmente e muito mais fácil de trabalhar.