Medidas de Dispersión

Inferencia, estimación y toma de decisiones a partir de datos

Una medida central te dice dónde está la data; dispersión te dice cuánto se mueve alrededor de esa medida central. Dos conjuntos de datos pueden tener el mismo promedio y ser muy diferentes: uno apretado, otro disperso. La dispersión es la diferencia.

La herramienta principal es varianza: la distancia media cuadrada desde la media. Su raíz cuadrada, la desviación estándar, se mide en las mismas unidades que los datos, por lo que es más fácil de interpretar.

Dos clases hacen el mismo cuestionario y ambas promedian 72, por lo que en papel se ven idénticas. Pero la clase A obtuvo 70, 72, 74 (todos agrupados) mientras que la clase B obtuvo 50, 72, 94 (muy dispersos). Mismo centro, historias completamente diferentes: la dispersión es exactamente el número que las distingue.

Dónde aparece en el MLLa dispersión se encuentra por todas partes en la confiabilidad del aprendizaje automático. Varianza de gradiente a través de un mini-lote controla cuánto es ruidoso cada paso de entrenamiento; alta varianza significa una descenso inestable. Y cuando reportas la precisión de un modelo, la desviación estándar entre semillas aleatorias te dice si un "+0.3%" es real o solo ruido. Un resultado sin su…
▶ Medidas de Dispersión
← Medidas CentralesDistribuciones de Datos →