导数
从第一性原理出发的单变量微积分
导数回答一个问题:函数在某个瞬间变化得有多快? 从几何上看,这就是曲线在某一点的斜率,也就是刚好贴着曲线的切线斜率。
想想行驶中的汽车里的速度计。你在一小时内的平均速度是总距离除以总时间,但指针显示的是更敏锐的东西:你在这极短的一瞬间开得究竟有多快。导数就是那根指针,它是冻结在单一个时刻的变动率,而不是涂抹在一个区间上。
但这里有个难点。斜率需要两个点:升高量除以水平距离。一个点本身没有第二个点可用。那么单个点怎么会有斜率?技巧是悄悄逼近它。
在机器学习中的应用训练每个神经网络的梯度正是这个导数,只不过应用在损失函数上。量 ∂L/∂w 是当你轻微改变某个权重 w 时损失的斜率:它的符号告诉你哪个方向会降低损失,它的大小告诉你损失对这个权重有多敏感。 训练就是:计算这个极限(自动微分引擎会精确地替你做,不需要真的缩小 h),然后让权重朝下坡方向走一步。整个深度学习领域都建立在这个极限之上。
▶ 导数