Diagnostics del Modelo

Inferencia, estimación y toma de decisiones a partir de datos

Ajustar una regresión es lo fácil. La pregunta más difícil es si puedes confiar en ella. Diagnostics del modelo son las comprobaciones que capturan un modelo que ajusta los números pero viola las suposiciones subyacentes. El objeto más útil para examinar es la residual: e = y − ŷ, el resto que el modelo no pudo explicar.

Si el modelo está correcto, las residuales deberían parecerse a ruido puro: sin patrones, dispersión constante, simetría aproximada. La herramienta principal es un gráfico de residuales: residuales en el eje y contra los valores ajustados (o una entrada) en el eje x. Estás buscando estructura que no debería estar allí.

Un buen médico no se detiene en nombrar la enfermedad; verifica qué síntomas quedan después del tratamiento. Si un paciente aún tiene una tos obstinada, el diagnóstico omitió algo. Los residuos son los síntomas sobrantes de un modelo: la parte de los datos que la línea ajustada no pudo explicar. Si muestran un patrón claro en lugar de ruido aleatorio inofensivo, el modelo también ha omitido algo.

Dónde aparece en el MLEl análisis de residuales es el antepasado estadístico del análisis de curva de aprendizaje y error en ML. "Training loss ≠ validation loss" es un diagnóstico: una gran brecha señala sobreajuste (alta varianza), igual que las residuales mal patrones indican un modelo especificado incorrectamente. Cortar tus errores por subgrupos para encontrar dónde el modelo falla sistemáticamente es exactamente…
▶ Diagnostics del Modelo
← Regresión lineal múltipleRegresión Regularizada →