Приложения — Изчисление I · Mathematics for Machine Learning

Истинската полза от Тейлър в ML е линеаризацията: замяната на сложна нелинейна функция с допирателната ѝ права в близост до дадена точка. В малък диапазон линейното приближение е почти точно, а линейните функции са много по-лесни за анализиране, пресмятане и осмисляне.

Сигмоидната функция σ(x) = 1/(1 + e⁻ˣ) е познатата свиваща нелинейност (squashing nonlinearity). Близо до x = 0 тя минава през ½ с наклон ¼, така че линейното ѝ приближение е:

Плоската хартиена пътна карта третира кръглата Земя като равнина близо до даден град. В продължение на няколко километра кривината е твърде малка, за да има значение, така че плоският лист е достатъчно точен за навигация, въпреки че планетата всъщност е сфера. Линеаризацията прави същото с функция: близо до дадена точка тя разменя истинската крива за допирателната f(x) ≈ f(0) + f′(0)·x, достатъчно точна локално и много по-лесна за работа.

Къде се използва това в MLЛинеаризацията е основен ML инстинкт. Приближенията за малък ъгъл и малък вход опростяват анализа на активационните функции (sigmoid, GELU, softmax) в близост до работната им точка. Линеаризирането на невронна мрежа около текущите ѝ тегла води до невронното допирателно ядро (neural tangent kernel) и стои в основата на това как анализираме динамиката на обучението. А по същество всеки оптимизатор…