Aplicações

Cálculo de uma variável a partir dos primeiros princípios

O verdadeiro proveito de Taylor em ML é a linearização: substituir uma função não-linear renitente pela sua reta tangente perto de um ponto de interesse. Num pequeno intervalo, a aproximação linear é quase exata, e o que é linear é muito mais fácil de analisar, calcular e compreender.

A sigmoide σ(x) = 1/(1 + e⁻ˣ) é a conhecida não-linearidade que comprime os valores. Perto de x = 0 passa por ½ com declive ¼, por isso a sua aproximação linear é:

Um mapa de ruas em papel plano trata a Terra redonda como um plano perto de uma cidade. Ao longo de alguns quilómetros a curvatura é demasiado pequena para importar, por isso a folha plana é exata o suficiente para navegar por ela, mesmo sendo o planeta na realidade uma esfera. A linearização faz o mesmo a uma função: perto de um ponto troca a curva verdadeira pela linha tangente f(x) ≈ f(0) + f′(0)·x, suficientemente exata localmente e muito mais fácil de trabalhar.

Onde isto aparece no MLA linearização é um reflexo central do ML. As aproximações para ângulos pequenos e entradas pequenas simplificam a análise de ativações (sigmoide, GELU, softmax) perto do seu ponto de operação. Linearizar uma rede em torno dos seus pesos atuais dá a perspetiva do neural tangent kernel e sustenta a forma como raciocinamos sobre a dinâmica do treino. E todo o otimizador de primeira ordem está, no…

▶ Aplicações

← Séries de Taylor Chave Vetores em Rⁿ →