Inferência, estimação e tomada de decisão a partir de dados
As predições reais usam muitas entradas, não apenas uma. A regressão linear múltipla generaliza a reta para um plano (ou hiperplano) em dimensões mais altas: cada variável ganha o seu próprio coeficiente. Empilhando todos os dados numa matriz X, o modelo se torna maravilhosamente compacto:
Aqui X é a matriz de planejamento n×d (uma linha por observação, uma coluna por variável), β é o vetor de coeficientes e y são as saídas. A solução OLS tem uma forma fechada célebre:
Vale a pena visualizar a geometria. O vetor de predições Xβ̂ tem de viver no espaço-coluna de X, o conjunto de todas as combinações das suas colunas de variáveis. O OLS escolhe o β̂ cuja predição é o ponto desse espaço mais próximo de y. Geometricamente, ŷ é a projeção ortogonal de y sobre o espaço-coluna, e o resíduo y − ŷ é perpendicular a ele. Essa perpendicularidade é exatamente o que (XᵀX)⁻¹Xᵀ calcula.