-
ADsP 데이터분석준전문가 - 다중공선성, 설명변수 선택방법S T U D Y/DataBase 2023. 2. 3. 22:16728x90반응형
다중공선성
모형의 일부 설명변수(=독립변수)가 다른 설명변수와 상관되어 있을 때 발생하는 조건
중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됨
R의 vif 함수를 사용해서 구할 수 있고, VIF > 10 이면 다중공선성 존재한다고 봄다중공선성 해결방법
높은 상관관계가 있는 설명변수를 모형에서 제거
설명변수를 제거하면 대부분 R-square(결정계수)가 감소 => 설명력 감소
그래서 단계적 회귀분석을 이용해서 제거함설명변수의 선택 원칙
y에 영향을 끼칠 수 있는 모든 설명변수 x들은 y값을 예측하는데 참여시킴
설명변수 x들의 수가 많아지면 관리에 많은 노력이 요구돼서 가능한 범위 내에 적은 수의 설명변수를 포함시켜야 함
두 원칙이 이율배반적이어서 적절한 설명변수 선택이 필요설명변수 선택방법
모든 가능한 조합
모든 가능한 독립변수들의 조합에 대한 회귀모형 고려해서 AIC, BIC의 기준으로 가장 적합한 회귀 모형을 선택함
AIC, BIC : 최소자승법의 R제곱(=R square)와 비슷한 역할을 함. 적합성 측정해주는 지표. 작을수록 좋은 값후진제거법
독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 유의하지 않은 변수가 없을 때 까지 설명변수 제거하고 모형 선택
step함수 사용
step(lm(y~x1+x2+x3+x4, df), direction ='backward')
후진제거법 : direction = 'backward'
전진선택법 : direction = 'forward'
단계선택법 : directio - = 'both'전진선택법
절편만 있는 모델에서 출발해서 기준 통계치 가장 많이 개선시키는 변수를 차례로 추가하는 방법
단계적 선택법
모든 변수가 포함된 모델에서 출발해 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져있는 변수 중 기준 통계치를 가장 많이 개선시키는 변수를 추가함
<참고> 회귀모델에서 변수를 선택하기 위한 판단기준은 Cp, AIC, BIC 등이 있음728x90반응형'S T U D Y > DataBase' 카테고리의 다른 글
ADsP 데이터분석준전문가 - 상관분석, 피어슨 스피어만 상관계수 (0) 2023.02.04 ADsP 데이터분석준전문가 - 과대적합, Regularization, Scaling (0) 2023.02.04 ADsP 데이터분석 준전문가 - 회귀분석, 회귀 모형의 가정, 회귀 모형의 해석 (0) 2023.01.31 ADsP 데이터분석준전문가 - 모수, 비모수 추론 (0) 2023.01.30 ADsP 데이터분석준전문가 - 추정량, 점추정, 구간추정, 가설검정 (0) 2023.01.30