Пределы и непрерывность в Rⁿ — Математический анализ II

На прямой можно было подкрасться к точке лишь с двух сторон, слева и справа. На плоскости и далее можно приближаться к точке бесконечным числом направлений, по любому пути. Эта свобода делает пределы в Rⁿ существенно сложнее, и этот урок — скорее предупреждение, чем рецепт.

Функция f имеет предел L в точке p, только если она стремится к тому же L по любому пути. Если два разных пути дают два разных ответа, предел просто не существует.

Вы договариваетесь встретиться с другом у фонтана посреди площади. Вы можете идти к нему от северного входа, восточного переулка или по любой извилистой диагонали через площадь, но вы должны оказаться у того же фонтана. Предел в Rⁿ требует именно этого: функция должна стремиться к одному значению, независимо от того, по какому пути вы приближаетесь. Если два подхода расходятся в том, где они приземляются, места встречи нет, и предел не существует.

Где это встречается в MLГрадиентное обучение работает, потому что почти каждая функция в глубоком обучении непрерывна: малый толчок весов даёт малое изменение потери, так что градиент имеет смысл. Известное исключение — ReLU, max(0, x), непрерывная везде, но с изломом в 0, где производная скачет. Гладкий ландшафт — регулярность, на которую опирается градиентный спуск, а там, где она нарушается (в изломе), оптимизация…