Convexité

Calcul multivarié depuis les premiers principes

Certains problèmes d'optimisation sont faciles et d'autres difficiles, et une propriété trace la frontière : la convexité. Une fonction convexe a une unique forme de bol sans faux fonds, donc trouver un endroit où le gradient est nul signifie que vous avez trouvé le minimum global. Pas de points selles, pas de pièges locaux.

L'image qui la définit : une fonction est convexe si la corde droite entre deux points quelconques de son graphe se situe au-dessus (ou sur) le graphe lui-même. La fonction ne déborde jamais au-dessus de ses propres raccourcis.

Comparez un saladier lisse avec une boîte à œufs bosselée. Le bol a un vrai fond : faites-y rouler une bille de n'importe où et elle se stabilise toujours au même point le plus bas. La boîte à œufs est pleine de petits pièges, chacun étant un faux fond qui attrape la bille avant le plus bas. Une fonction convexe est le saladier, et ce seul minimum garanti est ce qui la rend facile à optimiser.

Où cela apparaît en MLLa distinction convexe/non convexe explique beaucoup de choses en apprentissage automatique. La régression linéaire et la régression logistique sont convexes, donc la descente de gradient atteint de façon prouvée l'optimum global et deux exécutions quelconques concordent. Les réseaux profonds sont follement non convexes, remplis de points critiques, avec des résultats qui varient selon…

▶ Convexité

← Points critiques dans Rⁿ Optimisation sous contrainte →