Distribuciones marginales

Las matemáticas de la incertidumbre

Dado un conjunto p(x, y), supón que solo te importa X y deseas olvidar Y. Tú marginalizas: sumas (o integras) el conjunto sobre todos los valores de la variable indeseada. Lo que queda es la distribución marginal de X solo.

El nombre proviene de las viejas tablas de probabilidad: sumabas cada fila y escribías el total en el margen. Esos totales por filas son la marginal de una variable, y los totales por columnas son la marginal de la otra. Marginalizar significa "integrar la variable que no quieres."

Toma esa tabla de doble entrada de altura y peso y supongamos que solo te importa la altura, ignorando el peso por completo. Simplemente sumas cada fila de la conjunta p(x, y) y anotas el total en el margen: ese total de la fila es la frecuencia con la que ocurre cada altura sin importar el peso. Leer solo esos totales al margen da la distribución marginal de X, la única variable vista por sí sola.

Dónde aparece en el MLMarginalizando variables latentes es tanto la computación central como el dolor de cabeza central del modelado generativo. La verosimilitud de los datos es p(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dz, una integral sobre cada posible variable latente z. Esa integral suele ser intractable, que es exactamente por qué las VAE optimizan un límite tratable (el ELBO) en lugar de calcular la marginal…

▶ Distribuciones marginales

← Distribuciones Conjuntas Distribuciones Condicionesales →