凸性
从第一性原理出发的多变量微积分
有些优化问题容易,有些很难,而一条性质划分了边界:凸性。凸函数有单一的碗形,没有假的底部,所以只要找到梯度为零的地方,就找到了全局最小值。没有鞍点,没有局部陷阱。
定义图像是这样的:如果图像上任意两点之间的直线弦都位于图像上方(或正好在图像上),函数就是凸的。函数永远不会鼓到自己的捷径上方。
将一个光滑的沙拉碗与一个凹凸不平的鸡蛋盒进行比较。碗只有一个真正的底部:从任何地方滚入一颗弹珠,它总是会停在同一个最低点。鸡蛋盒里充满了小陷阱,每一个假底部都会在弹珠到达最低点之前接住它。凸函数就是这个沙拉碗,那个唯一有保证的最小值就是它容易优化的原因。
在机器学习中的应用凸/非凸的区别解释了很多机器学习现象。线性回归和逻辑回归是凸的,所以梯度下降可以被证明会到达全局最优,并且不同运行会一致。深度网络极度非凸,充满临界点,结果会随初始化和随机性变化。这种差距解释了为什么经典机器学习感觉可靠,而深度学习感觉更挑剔。同时,Jensen 不等式是训练 VAE 所用 ELBO 的核心基石。
▶ 凸性