Диференцируемост

Изчисление на променлива от първи принципи

Една функция е диференцируема в дадена точка, ако там има единствен, добре дефиниран наклон: една допирателна, без двусмислие. Повечето гладки криви са диференцируеми навсякъде. Но някои функции, макар и напълно непрекъснати, имат точка, в която наклонът просто не може да бъде определен. Да разбираме къде производните не съществуват е също толкова важно, колкото и да ги изчисляваме.

Ако една функция има наклон в дадена точка, тя не може да има прекъсване там, така че диференцируема ⇒ непрекъсната. Обратното не е вярно: една функция може да бъде непрекъсната (може да се начертае, без да вдигате химикалката) и въпреки това да няма наклон в дадена точка. Тъкмо разликата между „непрекъсната“ и „диференцируема“ е интересната част.

Абсолютната стойност |x| е стандартният пример. Тя е непрекъсната навсякъде, без прекъсване при 0. Но точно в ъгъла наклонът, който идва отляво, е −1, а наклонът, който продължава надясно, е +1. Два различни наклона се срещат в остра точка, така че няма една-единствена допирателна. Производната не съществува при x = 0.

Къде се използва това в MLReLU, най-често срещаната активационна функция, е буквално max(0, x): ъгъл при 0, точно като |x|. Нейната производна е недефинирана точно при 0, така че библиотеките просто избират стойност (обикновено 0), наречена „субградиент“. Ъглите на ReLU, изломите при L1 регуляризацията и негладкостта на функцията на загубата „hinge loss“ са все места, където се появява точно този проблем и той се…
▶ Диференцируемост
← ПроизводнатаОсновни правила за производни →