Геометрия и алгебра линейных отображений, векторов и матриц
Метод главных компонент находит направления, вдоль которых данные варьируются сильнее всего, затем позволяет описать каждую точку лишь несколькими из этих направлений вместо всех исходных признаков. Это стандартный инструмент снижения размерности, и под капотом — SVD, применённый к данным.
Рецепт короток. Центрируйте данные (вычтите среднее, чтобы облако было в начале координат), возьмите SVD матрицы данных и считайте ответы: главные компоненты — верхние сингулярные направления, а дисперсия каждой компоненты — её сингулярное значение в квадрате (делённое на n−1).
Представьте вытянутое, наклонённое облако точек. Первая главная компонента — длинная ось облака, единственное направление, захватывающее наибольшую дисперсию. Вторая — перпендикулярна ей, захватывает максимум остатка, и т.д. Проецируйте на первые несколько и сохраните форму, сбрасывая размерности.