Relações Entre Variáveis

Inferência, estimação e tomada de decisão a partir de dados

Até agora cada variável estava isolada. As perguntas reais costumam envolver duas variáveis ao mesmo tempo: o tempo de estudo se relaciona com as notas? o tamanho do modelo se relaciona com a acurácia? A primeira ferramenta é um gráfico de dispersão (um ponto por observação, x contra y), que permite ao seu olho detectar uma tendência instantaneamente.

Para atribuir um número a uma tendência linear, use o coeficiente de correlação de Pearson r. Ele varia de −1 a +1: +1 é uma reta ascendente perfeita, −1 uma reta descendente perfeita e 0 indica a ausência de qualquer relação linear.

Na figura, quanto mais de perto os pontos acompanham a reta ajustada, mais próximo de 1 está |r|. Espalhe-os e r se aproxima de 0.

Onde isso aparece no MLA análise de correlação é uma ferramenta cotidiana de ML. Variáveis altamente correlacionadas são redundantes; elas inflam a variância em modelos lineares (multicolinearidade) e desperdiçam capacidade. E, ao escolher um benchmark de avaliação, você verifica se ele se correlaciona com a métrica que de fato lhe interessa; uma métrica indireta barata só é útil se acompanhar a métrica real e custosa.
▶ Relações Entre Variáveis
← Distribuições de DadosParâmetros e Estimadores →