Relações Entre Variáveis

Inferência, estimação e tomada de decisão a partir de dados

Até agora cada variável estava isolada. As perguntas reais costumam envolver duas variáveis ao mesmo tempo: o tempo de estudo relaciona-se com as notas? o tamanho do modelo relaciona-se com a exatidão? A primeira ferramenta é um gráfico de dispersão (um ponto por observação, x contra y), que permite ao teu olho detetar uma tendência instantaneamente.

Para atribuir um número a uma tendência linear, usa o coeficiente de correlação de Pearson r. Varia de −1 a +1: +1 é uma reta ascendente perfeita, −1 uma reta descendente perfeita e 0 indica a ausência de qualquer relação linear.

Na figura, quanto mais de perto os pontos acompanham a reta ajustada, mais próximo de 1 está |r|. Espalha-os e r aproxima-se de 0.

Onde isto aparece no MLA análise de correlação é uma ferramenta do dia a dia em ML. As variáveis altamente correlacionadas são redundantes; inflam a variância em modelos lineares (multicolinearidade) e desperdiçam capacidade. E, ao escolher um benchmark de avaliação, verificas se ele se correlaciona com a métrica que de facto te interessa; uma métrica indireta barata só é útil se acompanhar a métrica real e custosa.
▶ Relações Entre Variáveis
← Distribuições de DadosParâmetros e Estimadores →