Diagnóstico de modelos

Inferência, estimação e tomada de decisão a partir de dados

Ajustar uma regressão é a parte fácil. A pergunta mais difícil é se podes confiar nela. Os diagnósticos de modelo são as verificações que apanham um modelo que ajusta os números mas viola as suposições subjacentes. O objeto mais útil a observar é o resíduo: e = y − ŷ, aquilo que sobra e que o modelo não conseguiu explicar.

Se o modelo estiver correto, os resíduos devem parecer ruído puro: sem padrão, com dispersão constante e aproximadamente simétricos. A ferramenta principal é o gráfico de resíduos: os resíduos no eixo dos y contra os valores ajustados (ou uma entrada) no eixo dos x. O que procuras é estrutura que não devia estar lá.

Um bom médico não se fica apenas por dar nome à doença; ele verifica que sintomas restam após o tratamento. Se um paciente ainda tem uma tosse persistente, o diagnóstico falhou em algo. Os resíduos são os sintomas remanescentes de um modelo: a parte dos dados que a linha ajustada não conseguiu explicar. Se mostrarem um padrão claro em vez de ruído aleatório inofensivo, o modelo também falhou em alguma coisa.

Onde isto aparece no MLA análise de resíduos é a antecessora estatística das curvas de aprendizagem e da análise de erros em ML. "Perda de treino ≠ perda de validação" é um diagnóstico: uma grande diferença sinaliza overfitting (variância elevada), tal como resíduos com padrão sinalizam um modelo mal especificado. Repartir os erros por subgrupo para descobrir onde o modelo falha sistematicamente é exatamente o…
▶ Diagnóstico de modelos
← Regressão Linear MúltiplaRegressão Regularizada →