Diagnóstico de modelos

Inferência, estimação e tomada de decisão a partir de dados

Ajustar uma regressão é a parte fácil. A pergunta mais difícil é se você pode confiar nela. Os diagnósticos de modelo são as verificações que pegam um modelo que ajusta os números mas viola as suposições subjacentes. O objeto mais útil a observar é o resíduo: e = y − ŷ, aquilo que sobra e que o modelo não conseguiu explicar.

Se o modelo estiver correto, os resíduos devem parecer ruído puro: sem padrão, com dispersão constante e aproximadamente simétricos. A ferramenta principal é o gráfico de resíduos: os resíduos no eixo dos y contra os valores ajustados (ou uma entrada) no eixo dos x. O que você procura é estrutura que não deveria estar lá.

Um bom médico não para em nomear a doença; ele checa quais sintomas sobraram após o tratamento. Se um paciente ainda tem uma tosse teimosa, o diagnóstico deixou passar algo. Os resíduos são os sintomas restantes de um modelo: a parte dos dados que a linha ajustada não conseguiu explicar. Se eles mostram um padrão claro em vez de um ruído aleatório inofensivo, o modelo deixou passar algo também.

Onde isso aparece no MLA análise de resíduos é a antecessora estatística das curvas de aprendizado e da análise de erros em ML. "Perda de treino ≠ perda de validação" é um diagnóstico: uma grande diferença sinaliza overfitting (variância elevada), tal como resíduos com padrão sinalizam um modelo mal especificado. Repartir os erros por subgrupo para descobrir onde o modelo falha sistematicamente é exatamente o…
▶ Diagnóstico de modelos
← Regressão Linear MúltiplaRegressão Regularizada →