1. 주성분 분석 여러 변수들의 변량을 '주성분(Principal Component)'라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.
첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번재 주성분과는 상관성이 없어서(낮아서) 첫 번재 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.
2. 주성분분석의 목적
- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하고 수비고 관리하기 쉽게 해준다.
- 다중공선성이 존재하는 경우, 상관성이 없는(적은)주성분으로 변수들을 축소하여 모형 개발에 활용된다.(회귀분석이나 의사결정나무(decision tree) 등의 모형 개발 시 입력변수들간의 상관 관계가 높은 다중공선성(multicollinearity)이 존재할 경우 모형이 잘못 만들어져 문제가 생김)
- 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.
- 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장(fatal failure)징후를 사전에 파악하는데 활용하기도 한다.
3. 주성분분석 vs 요인분석
가. 요인분석(Factor Analysis)
- 등간척도(혹은 비율척도)로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법이다.
나. 공통점
- 모두 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들 수 있다.
다. 차이점
1) 생성된 변수의 수
- 요인분석은 몇 개라고 지정 없이(2 or 3,4,5,...) 만들 수 있다.
- 주성분분석은 제1주성분, 제2주성분, 제3주성분 정도로 활용한다(대게 4이상은 넘지 않음)
2) 생성된 변수의 이름
- 요인분석은 분석자가 요인의 이름을 명명하다.
- 주성분분석은 제1주성분 제2주성분 등으로 표현된다.
3) 생성된 변수들 간의 관계
- 요인분석은 새 변수들은 기본적으로 대등한 관계를 갖고 '어떤 것이 더 중요하다'라는 의미는 요인분석에서는 ㅇ벗다. 단, 분류/예측에 그 다음 단계로 사용된다면 그 때 중요성의 의미가 부여된다.
4. 주성분의 선택법
주성분분석의 결과에서 누적기여율이
scree plot을 활용하여 고유값이 수평을 유지하기 전단계로 주성분의 수를 선택한다.
5. 주성분 분석 사례
가. USArrest 자료.