Convexidade

Cálculo multivariável a partir dos primeiros princípios

Alguns problemas de otimização são fáceis e outros são difíceis, e uma propriedade traça a linha: convexidade. Uma função convexa tem uma única forma de tigela sem fundos falsos, por isso encontrar um lugar onde o gradiente é zero significa que encontraste o mínimo global. Sem selas, sem armadilhas locais.

A imagem que a define: uma função é convexa se a corda reta entre dois pontos quaisquer do seu gráfico fica acima (ou sobre) o próprio gráfico. A função nunca se abaúla acima dos seus próprios atalhos.

Compare uma tigela de salada lisa com uma caixa de ovos irregular. A tigela tem um único fundo verdadeiro: lance um berlinde de qualquer lado e ele assenta sempre no mesmo ponto baixo. A caixa de ovos está cheia de pequenas armadilhas, cada uma sendo um fundo falso que apanha o berlinde antes do ponto mais baixo. Uma função convexa é a tigela de salada, e esse único mínimo garantido é o que a torna fácil de otimizar.

Onde isto aparece no MLA divisão entre convexo e não convexo explica boa parte do ML. A regressão linear e a logística são convexas, por isso o gradiente descendente alcança comprovadamente o ótimo global e duas execuções quaisquer concordam. As redes profundas são desmesuradamente não convexas, repletas de pontos críticos, com resultados que mudam conforme a inicialização e a aleatoriedade. É essa diferença que faz o…
▶ Convexidade
← Pontos Críticos em RⁿOtimização com Restrições →