Concavità/Convessità

Calcolo multivariabile dai primi principi

Alcuni problemi di ottimizzazione sono facili e alcuni sono difficili, e una proprietà traccia la linea: la convessità. Una funzione convessa ha una singola forma a ciotola senza falsi fondi, quindi trovare un posto dove il gradiente è zero significa aver trovato il minimo globale. Niente selle, niente trappole locali.

L'immagine definitoria: una funzione è convessa se la corda retta tra due punti qualsiasi sul suo grafico giace sopra (o su) il grafico stesso. La funzione non sporge mai sopra le proprie scorciatoie.

Confronta un'insalatiera liscia con un cartone per le uova bitorzoluto. La ciotola ha un vero fondo: fai rotolare dentro una biglia da qualsiasi punto e si fermerà sempre nello stesso punto più basso. Il cartone per le uova è pieno di piccole trappole, ognuna un falso fondo che cattura la biglia prima del punto più basso. Una funzione convessa è l'insalatiera, e quel singolo minimo garantito è ciò che la rende facile da ottimizzare.

Dove si trova nel MLLa divisione convesso/non-convesso spiega gran parte dell'ML. La regressione lineare e quella logistica sono convesse, quindi la discesa del gradiente raggiunge in modo dimostrabile l'ottimo globale e due esecuzioni qualsiasi concordano. Le reti profonde sono fortemente non convesse, piene di punti critici, con risultati che cambiano al variare dell'inizializzazione e della casualità. È questo…

▶ Concavità/Convessità

← Punti Critici in Rⁿ Ottimizzazione Vincolata →