Distribuições Conjuntas

A matemática da incerteza

Até agora, cada variável aleatória vivia isolada. Mas as perguntas interessantes dizem respeito a relações: altura e peso, uma imagem e seu rótulo. Uma distribuição conjunta p(x, y) dá a probabilidade de cada par de valores de uma só vez. É a descrição completa de como duas (ou mais) variáveis se comportam em conjunto.

Para variáveis discretas, imagine uma grade: as linhas são os valores de X, as colunas os valores de Y, e cada célula contém a probabilidade dessa combinação. Todas as células são não negativas e somam 1 — os axiomas de novo, agora em duas dimensões. Para variáveis contínuas, trata-se de uma densidade f(x, y) e as probabilidades são volumes sob uma superfície bidimensional.

Imagine uma tabela de dupla entrada de pessoas ordenadas por altura e peso ao mesmo tempo: baixo e leve em uma célula, alto e pesado em outra, e um número em cada célula dizendo o quão comum é esse emparelhamento. Toda essa grade de emparelhamentos é a distribuição conjunta p(x, y) — ela descreve altura e peso juntos, não um de cada vez. Preencha cada célula, torne-as não negativas e somando a 1, e você terá capturado a imagem completa de como as duas características viajam juntas.

Onde isso aparece no MLO aprendizado supervisionado consiste em modelar uma conjunta p(x, y) de entradas e rótulos, ou parte dela. Os modelos generativos aprendem a conjunta completa p(x, y) e conseguem sintetizar novos dados; os modelos discriminativos aprendem apenas a condicional p(y | x) necessária para prever. Toda a distinção entre generativo e discriminativo se resume a quanto da conjunta vale a pena modelar.

▶ Distribuições Conjuntas

← Gaussiana Multivariada Distribuições Marginais →