Relaciones entre Variables

Inferencia, estimación y toma de decisiones a partir de datos

Hasta ahora cada variable estaba por sí sola. Las preguntas reales suelen involucrar dos variables a la vez: ¿el tiempo de estudio se relaciona con las calificaciones? ¿el tamaño del modelo se relaciona con la precisión? La primera herramienta es un gráfico de dispersión (un punto por observación, x contra y), lo que permite que tu ojo identifique una tendencia instantáneamente.

Para poner un número a una tendencia lineal, usa el coeficiente de correlación de Pearson r. Va desde −1 hasta +1: +1 es una línea ascendente perfecta, −1 una línea descendente perfecta, 0 ninguna relación lineal en absoluto.

En la figura, cuánto más cerca los puntos están del ajuste de la línea, más cercano |r| está a 1. Dispersos y r se desplaza hacia 0.

Dónde aparece en el MLEl análisis de correlación es una herramienta diaria del aprendizaje automático. Características altamente correlacionadas son redundantes; inflan la varianza en modelos lineales (multicolinealidad) y desperdician capacidad. Y al elegir un criterio de evaluación, verificas si se correla con la métrica que realmente importa; una métrica proxy barata es útil solo si rastrea la real cara del costo.
▶ Relaciones entre Variables
← Distribuciones de DatosParámetros y Estimadores →