ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 - 차원 축소 기법
    S T U D Y/DataBase 2023. 2. 4. 17:35
    728x90
    반응형
    차원축소 목표를 위해 개발된 분석 방법

    주성분분석
    요인분석
    판별분석
    군집분석
    정준상관분석
    다차원척도법


    차원축소기법 - 다차원척도법

    객체간 근접성을 시각화함
    유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현해 군집을 시각적으로 표현하는 분석법
    개체들의 거리는 유클리드 거리와 유사도를 이용해서 구함
    관측 대상의 상대적 거리 정확도를 높이기 위해 적합 정도를 스트레스 값으로 나타내고 0에 가까울수록 적합도가 좋다


    차원축소기법 - 주성분 분석(PCA)

    공분산행렬 또는 상관계수 행렬 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
    분산을 극대화하는 변수로 축약
    주성분은 변수들의 선형결합(축을 회전해 직교하는 성분으로 변환)으로 이루어져 있음
    분산을 최대화 함
    독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화 함
    동일한 주성분은 선형결합으로 되어 있음
    주성분 분석의 목적 중 하나는 데이터를 이해하기 위한 차원축소
    척도에 영향을 받기 때문에 정규화 전후의 주성분 결과가 다름
    제1주성분이 가장 큰 분산을 가지고 있음
    상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화 하는 변수로 선형결합을 해 변수를 축약하는데 사용함
    주성분 분석에서  차원을 2차원으로 줄인다는 말은 변수를 2개까지만 쓰겠다는  말


    공분산행렬(default) vs 상관계수행렬

    공분산 행렬은 변수의 측정단위를 그대로 반영, 상관계수 행렬은 모든 변수의 측정단위를 표준화함
    모든 변수들이 같은 수준으로 점수화 된 경우 공분산행렬 사용
    변수들의 scale이 서로 많이 다른 경우에는 상관계수행렬을 사용함
    주성분분석에서 상관계수 행렬 사용 #11글자로 외우기 prcomp scale, princompcor
    prcomp(data, scale=TRUE) #공분산행렬
    princomp(data, cor=TRUE) #상관계수행렬
    prcomp와 princomp는 결과가 같음
    Standard deviation : 표준편차
    Proportion of Variance : 분산비율, 각 분산이 전체 분산에서 차지하는 비중
    Cumulative Proportion : 누적비율, 분산의 누적 비율

    주성분결정기준

    성분들이 설명하는 분산의 비율
    누적분산비율을 확인하면 주성분들이 설명하는 전체 분산 양을 알 수 있음
    누적 분산 비율이 70~90% 사이가 되는 주성분 개수 선택

    고유값(Eigenvalue)

    분산 크기를 나타내며, 고유값이 1보다 큰 주성분만 사용함

    Scree Plot

    고유값을 가장 큰 값에서 작은 값 순서로 정렬해서 보여줌(1보다 큰 값 사용)

    728x90
    반응형

    댓글

Designed by Tistory.