Движутся ли две переменные вместе? Ковариация измеряет: среднее произведение отклонений от средних. Когда обе бывают выше (или обе ниже) среднего одновременно, произведения положительны и ковариация положительна.
Положительная ковариация — растут вместе. Отрицательная — одна растёт, другая падает. Ноль — нет линейной тенденции. Но ковариация в неудобных смешанных единицах и её размер зависит от масштаба, трудно интерпретировать.
Разделите ковариацию на оба стандартных отклонения — получите коэффициент корреляции ρ, чистое число между −1 и +1:
Где это встречается в MLМатрица ковариаций Σᵢⱼ = Cov(Xᵢ, Xⱼ) упаковывает все парные ковариации вектора признаков. PCA диагонализует её, находя направления наибольшей дисперсии. Сильно коррелированные входы вызывают мультиколлинеарность и нестабильные веса, а паттерн «что на что обращает внимание» в attention-карте трансформера — грубо говоря, выученная корреляционная структура по токенам.