Convexidade

Cálculo multivariável a partir dos primeiros princípios

Alguns problemas de otimização são fáceis e outros são difíceis, e uma propriedade traça a linha: convexidade. Uma função convexa tem uma única forma de tigela sem fundos falsos, então encontrar um lugar onde o gradiente é zero significa que você encontrou o mínimo global. Sem selas, sem armadilhas locais.

A imagem que a define: uma função é convexa se a corda reta entre dois pontos quaisquer do seu gráfico fica acima (ou sobre) o próprio gráfico. A função nunca se abaúla acima dos seus próprios atalhos.

Compare uma tigela de salada lisa com uma caixa de ovos esburacada. A tigela tem um único fundo verdadeiro: role uma bola de gude de qualquer lugar e ela sempre se assenta no mesmo ponto baixo. A caixa de ovos está cheia de pequenas armadilhas, cada uma com um fundo falso que prende a bola de gude antes do ponto mais baixo. Uma função convexa é a tigela de salada, e esse único mínimo garantido é o que a torna fácil de otimizar.

Onde isso aparece no MLA divisão entre convexo e não convexo explica boa parte do ML. A regressão linear e a logística são convexas, então o gradiente descendente alcança comprovadamente o ótimo global e duas execuções quaisquer concordam. As redes profundas são desmesuradamente não convexas, repletas de pontos críticos, com resultados que mudam conforme a inicialização e a aleatoriedade. É essa diferença que faz o ML…

▶ Convexidade

← Pontos Críticos em Rⁿ Otimização com Restrições →