Геометрия и алгебра на линейни приложения, вектори и матрици
Анализът на главните компоненти (PCA) намира направленията, в които данните варират най-много, след което ви позволява да опишете всяка точка само чрез няколко от тези направления, вместо чрез всички първоначални характеристики (features). Това е стандартният инструмент за намаляване на размерността, а под капака му стои SVD, приложен върху вашите данни.
Рецептата е кратка. Центрирайте данните (извадете средната стойност, така че центърът на облака от данни да е в началото на координатната система), приложете SVD върху матрицата с данни и прочетете резултатите: главните компоненти са водещите сингулярни направления (right singular vectors), а дисперсията (variance), уловена от всеки компонент, е пропорционална на квадрата на съответната му сингулярна стойност (разделен на n−1).
Представете си разтеглен, наклонен облак от точки. Първият главен компонент е дългата ос на облака — това е единственото направление, което улавя най-голямата част от дисперсията. Вторият е перпендикулярен на него и улавя по-голямата част от останалата дисперсия и т.н. Ако проектирате данните върху първите няколко компонента, вие запазвате основната форма, като същевременно намалявате размерността.