Convexité

Calcul à une variable depuis les premiers principes

La convexité est la forme qui rend l'optimisation facile. Une fonction convexe se courbe vers le haut partout, comme une assiette, et cette propriêté unique la rend simple à minimiser : il y a exactement un point le plus bas, et tout chemin en descente conduit directement à lui.

Il existe trois manières équivalentes de voir la convexité. Premièrement, la dérivée seconde est non négative partout : f″(x) ≥ 0. Deuxièmement, la courbe se courbe vers le haut et ne s'incurve jamais vers le bas. Troisièmement, l'image définissante, une corde entre deux points quelconques se trouve au-dessus de la courbe.

Imaginez une vallée douce, ou l'intérieur d'un bol, et lâchez-y une bille n'importe où. Peu importe d'où elle part, la bille roule toujours vers l'unique point le plus bas et s'y stabilise. C'est exactement ce que la convexité vous offre : une seule vallée, aucun faux fond, de sorte que tout chemin descendant mène au seul et unique vrai minimum.

Où cela apparaît en MLLa convexité est la ligne de démarcation en apprentissage automatique. La régression linéaire/logistique et les SVMs ont des pertes convexes : un seul minimum global, l'apprentissage est fiable et reproductible. Les réseaux profonds ont des pertes totalement non convexes avec des milliers de minima locaux et de points selle, c'est pourquoi les initialisations aléatoires aboutissent à des…

▶ Convexité

← Test de la dérivée seconde Prévisualisation du Gradient Descent →