Distribuições Conjuntas

A matemática da incerteza

Até agora, cada variável aleatória vivia isolada. Mas as perguntas interessantes dizem respeito a relações: altura e peso, uma imagem e o seu rótulo. Uma distribuição conjunta p(x, y) dá a probabilidade de cada par de valores de uma só vez. É a descrição completa de como duas (ou mais) variáveis se comportam em conjunto.

Para variáveis discretas, imagina uma grelha: as linhas são os valores de X, as colunas os valores de Y, e cada célula contém a probabilidade dessa combinação. Todas as células são não negativas e somam 1 — os axiomas de novo, agora em duas dimensões. Para variáveis contínuas, trata-se de uma densidade f(x, y) e as probabilidades são volumes sob uma superfície bidimensional.

Imagine uma tabela de dupla entrada de pessoas ordenadas por altura e peso ao mesmo tempo: baixas e leves numa célula, altas e pesadas noutra, e um número em cada célula a dizer quão comum é esse emparelhamento. Toda essa grelha de emparelhamentos é a distribuição conjunta p(x, y) — descreve a altura e o peso em conjunto, e não um de cada vez. Preencha cada célula, faça-as não-negativas e com uma soma igual a 1, e terá capturado a imagem completa de como as duas características viajam juntas.

Onde isto aparece no MLA aprendizagem supervisionada consiste em modelar uma conjunta p(x, y) de entradas e rótulos, ou parte dela. Os modelos generativos aprendem a conjunta completa p(x, y) e conseguem sintetizar novos dados; os modelos discriminativos aprendem apenas a condicional p(y | x) necessária para prever. Toda a distinção entre generativo e discriminativo se resume a quanto da conjunta vale a pena modelar.

▶ Distribuições Conjuntas

← Gaussiana Multivariada Distribuições Marginais →