De wiskunde van onzekerheid
Echte data is zelden één getal. Het is een vector. De multivariate Gaussische N(μ, Σ) breidt de klokkromme uit naar vele dimensies. Het gemiddelde wordt een vector μ ∈ ℝⁿ (het centrum van de wolk) en de variantie wordt een covariantiematrix Σ (de vorm en kanteling van de wolk).
De exponent veralgemeent de z-score: (x−μ)ᵀΣ⁻¹(x−μ) is de gekwadrateerde Mahalanobis-afstand, afstand tot het gemiddelde gemeten in eenheden van de eigen spreiding van de data. Punten met gelijke dichtheid vormen ellipsen (ellipsoïden in hogere dimensies); de covariantiematrix bepaalt hun grootte, rekking en kanteling.
De diagonaal van Σ bevat de per-coördinaat-varianties; de elementen buiten de diagonaal bevatten covarianties, die je vertellen of coördinaten samen stijgen. Een diagonale Σ geeft asgerichte ellipsen (onafhankelijke coördinaten); termen buiten de diagonaal kantelen ze. Σ moet positief semidefiniet zijn, aangezien er niet zoiets bestaat als negatieve variantie in welke richting dan ook.