导数 — 微积分 I · Mathematics for Machine Learning

导数回答一个问题：函数在某个瞬间变化得有多快？从几何上看，这就是曲线在某一点的斜率，也就是刚好贴着曲线的切线斜率。

想想行驶中的汽车里的速度计。你在一小时内的平均速度是总距离除以总时间，但指针显示的是更敏锐的东西：你在这极短的一瞬间开得究竟有多快。导数就是那根指针，它是冻结在单一个时刻的变动率，而不是涂抹在一个区间上。

但这里有个难点。斜率需要两个点：升高量除以水平距离。一个点本身没有第二个点可用。那么单个点怎么会有斜率？技巧是悄悄逼近它。

在机器学习中的应用训练每个神经网络的梯度正是这个导数，只不过应用在损失函数上。量 ∂L/∂w 是当你轻微改变某个权重 w 时损失的斜率：它的符号告诉你哪个方向会降低损失，它的大小告诉你损失对这个权重有多敏感。训练就是：计算这个极限（自动微分引擎会精确地替你做，不需要真的缩小 h），然后让权重朝下坡方向走一步。整个深度学习领域都建立在这个极限之上。