Distribuciones de Datos

Inferencia, estimación y toma de decisiones a partir de datos

Una sola centro y una sola dispersión son solo dos números. La forma completa de los datos (su distribución) contiene mucho más. La forma más rápida de verlo es un histograma: divide el rango en intervalos y cuenta cuántos valores caen en cada uno. Una versión suavizada es una gráfica de densidad.

Una vez que puedes ver la forma, dos preguntas importan: ¿es simétrica o sesgada?, y ¿son sus colas pesadas o livianas?

Sesgo mide la asimetría. Una distribución sesgada a la derecha (positiva) tiene una larga cola que se extiende hacia la derecha: ingresos, tiempos de espera, tamaños de archivos. Una sesgada a la izquierda se arrastra hacia la izquierda. Para una forma sesgada a la derecha, la media está situada a la derecha de la mediana, arrastrada por la cola.

Dónde aparece en el MLLa forma de la distribución impulsa decisiones reales de ML. Distribuciones de activación dentro de una red pueden desviarse y desarrollar colas pesadas, por eso existe la normalización en lote/capa. Las distribuciones de pérdida entre lotes revelan si tu modelo falla uniformemente o se atasca con un minoritario pero pesado conjunto de ejemplos difíciles. Y las colas pesadas son por qué las…
▶ Distribuciones de Datos
← Medidas de DispersiónRelaciones entre Variables →