728x90
PCA는 여러 변수 간에 존재하는 상관관계를 이용하여 가장 대표하는 주성분(PC)을 추출해 차원을 축소하는 기법입니다.
PCA로 차원을 축소할 경우 기존 데이터의 정보 유실을 최소화 해야합니다.
따라서 PCA는 가장 높은 분산을 찾는 방향으로 데이터의 축을 설정해 차원을 축소합니다.
즉, 분산이 데이터의 특성을 가장 잘 나타낸다고 가정합니다. 여기서 분산은 데이터가 널리 퍼져있는 정도를 말합니다.
첫 번째 주성분은 분석이 가장 큰 대각 선 방향으로 축을 찾습니다.
두 번째 주성분은 첫 번째 축에 직교하고 남은 분산을 최대한 보존하는 축을 찾습니다.
더 고차원 데이터셋이라면 이전의 두 축에 직교하는 축을 찾으며 데이터셋에 있는 차원의 수만큼 축을 찾아가는 과정입니다.
따라서 주성분 벡터의 원소 개수는 원본 데이터셋에 있는 특성 개수와 같습니다.
원본 데이터는 주성분을 사용해 차원을 줄일 수 있습니다.
즉, 주성분은 원본 차원과 같지만 주성분으로 바꾼 데이터는 차원이 줄어듭니다.
728x90
'Data Analytics with python > [Theory]' 카테고리의 다른 글
[Machine Learning][Regression] 회귀 소개 (0) | 2023.02.02 |
---|---|
[Machine Learning] 머신 러닝 개괄 (0) | 2023.01.30 |
[Machine Learning][나이브 베이지안 ] NAIVE BAYES (0) | 2023.01.26 |
그래프 유형 선택하기 (0) | 2023.01.21 |
클래스(class)와 객체(object)와 인스턴스(instance) 구분 (0) | 2022.03.01 |
댓글