Convexidade

Cálculo de uma variável a partir dos primeiros princípios

Convexidade é a forma que torna a otimização fácil. Uma função convexa encaixa para cima em todo o lado, como uma tigela, e essa única propriedade torna-a fácil de minimizar: há exatamente um ponto mais baixo, e qualquer caminho descendente leva direto a ele.

Há três formas equivalentes de ver a convexidade. Primeiro, a segunda derivada é não-negativa em todo o lado: f″(x) ≥ 0. Segundo, a curva encaixa para cima e nunca se curva para baixo. Terceiro, a imagem definidora, uma corda entre quaisquer dois pontos fica acima da curva.

Imagine um vale suave, ou o interior de uma taça, e largue um berlinde em qualquer lugar do mesmo. Independentemente de onde começar, o berlinde rola sempre para o único ponto mais baixo e assenta aí. É exatamente isso que a convexidade lhe oferece: um vale, sem fundos falsos, pelo que qualquer caminho descendente leva ao único e verdadeiro mínimo.

Onde isto aparece no MLConvexidade é a linha divisória em ML. Regressão linear/logística e SVMs têm losses convexas: um mínimo global, o treino é fiável e reprodutível. Redes profundas têm losses não-convexas selvagens, com incontáveis mínimos locais e selas, e é por isso que inicializações aleatórias diferentes chegam a soluções diferentes, por que a taxa de aprendizagem importa tanto, e por que não há um único "o"…

▶ Convexidade

← Teste da Segunda Derivada Prévia do Gradiente Descendente →