Дифференцируемость

Одномерный анализ с первых принципов

Функция дифференцируема в точке, если имеет единственный, определённый наклон: одну касательную, без двусмысленности. Большинство гладких кривых дифференцируемы везде. Но некоторые функции, вполне непрерывные, имеют место, где наклон нельзя закрепить. Понимать, где производные не работают, так же важно, как уметь их считать.

Если у функции есть наклон в точке, она не может иметь скачок там, поэтому дифференцируемость ⇒ непрерывность. Обратное неверно: функция может быть непрерывной (рисуемой без отрыва пера), но не иметь наклона в точке. Зазор между «непрерывна» и «дифференцируема» — в точности интересная часть.

Абсолютная величина |x| — стандартный пример. Непрерывна везде, без разрыва при 0. Но прямо на угле наклон слева −1, а справа +1. Два разных наклона встречаются в острой точке — единственной касательной нет. Производная не существует при x = 0.

Где это встречается в MLReLU, самая частая активация, — буквально max(0, x): угол при 0, как у |x|. Её производная не определена прямо при 0, поэтому фреймворки просто выбирают значение (обычно 0), называемое «субградиентом». Углы ReLU, изломы L1-регуляризации и негладкость шарнирной потери — все места, где эта проблема возникает и решается субградиентами.
▶ Дифференцируемость
← ПроизводнаяБазовые правила дифференцирования →