] [ADsP]주성분 분석
본문 바로가기

카테고리 없음

[ADsP]주성분 분석

1. 주성분 분석 여러 변수들의 변량을 '주성분(Principal Component)'라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다. 

첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번재 주성분과는 상관성이 없어서(낮아서) 첫 번재 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다. 

 

2. 주성분분석의 목적

- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하고 수비고 관리하기 쉽게 해준다. 

- 다중공선성이 존재하는 경우, 상관성이 없는(적은)주성분으로 변수들을 축소하여 모형 개발에 활용된다.(회귀분석이나 의사결정나무(decision tree) 등의 모형 개발 시 입력변수들간의 상관 관계가 높은 다중공선성(multicollinearity)이 존재할 경우 모형이 잘못 만들어져 문제가 생김)

- 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다. 

- 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장(fatal failure)징후를 사전에 파악하는데 활용하기도 한다. 

 

3. 주성분분석 vs 요인분석

가. 요인분석(Factor Analysis)

- 등간척도(혹은 비율척도)로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법이다.

 

나. 공통점 

- 모두 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들 수 있다. 

 

다. 차이점

1) 생성된 변수의 수 

- 요인분석은 몇 개라고 지정 없이(2 or 3,4,5,...) 만들 수 있다. 

- 주성분분석은 제1주성분, 제2주성분, 제3주성분 정도로 활용한다(대게 4이상은 넘지 않음)

2) 생성된 변수의 이름

- 요인분석은 분석자가 요인의 이름을 명명하다. 

- 주성분분석은 제1주성분 제2주성분 등으로 표현된다.     

 

3) 생성된 변수들 간의 관계

- 요인분석은 새 변수들은 기본적으로 대등한 관계를 갖고 '어떤 것이 더 중요하다'라는 의미는 요인분석에서는 ㅇ벗다. 단, 분류/예측에 그 다음 단계로 사용된다면 그 때 중요성의 의미가 부여된다. 

 

4. 주성분의 선택법 

주성분분석의 결과에서 누적기여율이  

scree plot을 활용하여 고유값이 수평을 유지하기 전단계로 주성분의 수를 선택한다. 

 

5. 주성분 분석 사례 

가. USArrest 자료.