Convexidade

Cálculo de uma variável a partir dos primeiros princípios

Convexidade é a forma que torna a otimização fácil. Uma função convexa se encaixa para cima em todo lugar, como uma tigela, e essa única propriedade a torna fácil de minimizar: há exatamente um ponto mais baixo, e qualquer caminho descendente leva direto a ele.

Há três formas equivalentes de ver convexidade. Primeiro, a segunda derivada é não-negativa em todo lugar: f″(x) ≥ 0. Segundo, a curva se encaixa para cima e nunca se curva para baixo. Terceiro, a imagem definidora, uma corda entre quaisquer dois pontos fica acima da curva.

Imagine um vale suave, ou o interior de uma tigela, e solte uma bola de gude em qualquer lugar ao longo dele. Não importa onde ela comece, a bola sempre rola para o único ponto mais baixo e se acomoda lá. É exatamente isso que a convexidade lhe dá: um vale, sem fundos falsos, de modo que qualquer caminho para baixo leva ao único e verdadeiro mínimo.

Onde isso aparece no MLConvexidade é a linha divisória em ML. Regressão linear/logística e SVMs têm losses convexas: um mínimo global, treinamento é conconfiável e reprodutível. Redes profundas têm losses não-convexas selvagens, com incontáveis mínimos locais e selas, e é por isso que inicializações aleatórias diferentes chegam a soluções diferentes, por que a taxa de aprendizado importa tanto, e por que não há um…

▶ Convexidade

← Teste da Segunda Derivada Prévia do Gradiente Descendente →