Aplicações

Cálculo de uma variável a partir dos primeiros princípios

O verdadeiro proveito de Taylor em ML é a linearização: substituir uma função não-linear renitente pela sua reta tangente perto de um ponto de interesse. Num pequeno intervalo, a aproximação linear é quase exata, e o que é linear é muito mais fácil de analisar, calcular e compreender.

A sigmoide σ(x) = 1/(1 + e⁻ˣ) é a conhecida não-linearidade que comprime os valores. Perto de x = 0 passa por ½ com inclinação ¼, por isso a sua aproximação linear é:

Um mapa de rua plano em papel trata a Terra redonda como um plano perto de uma cidade. Ao longo de alguns quilômetros a curvatura é muito pequena para importar, então a folha plana é precisa o suficiente para navegar por ela, mesmo a planeta sendo realmente uma esfera. A linearização faz o mesmo com uma função: perto de um ponto, ela troca a verdadeira curva pela linha tangente f(x) ≈ f(0) + f′(0)·x, exata o suficiente localmente e muito mais fácil de trabalhar.

Onde isso aparece no MLA linearização é um reflexo central do ML. As aproximações para ângulos pequenos e entradas pequenas simplificam a análise de ativações (sigmoide, GELU, softmax) perto do seu ponto de operação. Linearizar uma rede em torno dos seus pesos atuais dá a perspectiva do neural tangent kernel e sustenta a forma como raciocinamos sobre a dinâmica do treino. E todo otimizador de primeira ordem está, no…

▶ Aplicações

← Séries de Taylor Chave Vetores em Rⁿ →