ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 - 앙상블, k-NN, SVM
    S T U D Y/DataBase 2023. 2. 5. 19:34
    728x90
    반응형
    앙상블 모형

    여러 개의 분류 모형에 의한 결과를 종합해 분류의 정확도를 높임
    약하게 학습된 여러 모델들을 결합해 사용
    성능 분산시키기 위해 과적합 감소 효과가 있음

    앙상블 모형의 종류

    voting

    서로 다른 여러 개 알고리즘 분류기 사용
    hard voting
    각 모델 예측 결과 중 많은 것을 선택
    1 예측 3표, 2예측 2표 이면 1 예측 선택
    Soft voting
    각 모델의 클래스 확률을 구하고 평균이 높은 확률을 선택
    (예시)
    A분류기 : 1번, 0.9
    B분류기 : 1번, 0.8
    C분류기 : 2번, 0.7
    D분류기 : 1번, 0.4
    1 예측 : (0.9+0.8+0.3+0.4)/4 = 0.6 => 1예측 선택
    2 예측 : (0.1+0.2+0.3+0.6)/4 = 0.4

    배깅(Bagging, Bootstrap AGGregatING) # 자주다루니까 잘 알아둬야 함

    데이터 집합으로부터 크기가 같은 표본을 여러 번 단순임의복원추출해 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법
    서로 다른 훈련 데이터 샘플로 훈련, 같은 알고리즘 분류기로 결합
    여러 모델이 병렬로 학습하고 그 결과를 집계하는 방식
    같은 데이터가 여러 번 추출될 수 있고, 데이터가 추출되지 않을 수도 있음

    부스팅(Boosting)

    여러 모델이 순차적으로 학습
    이전 모델 결과에서 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치를 부여해 표본 추출함
    맞추기 어려운 문제를 맞추는 데 초점이 맞춰져있고, 이상치에 약함
    대표적 알고리즘 : AdaBoost, GradienBoost(XGBoost, Light GBM{Leaf-wise-node} 방법 사용)

    랜덤포레스트

    배깅에 랜덤 과정을 추가함
    노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 모든 예측변수에서 최적의 분할을 선택하는 대신, 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용
    여러 개 의사결정 나무를 사용해, 하나의 나무를 사용할 때 보다 과적합 문제를 피할 수 있음

    k-NN(k-Nearest Neighbors)

    새로운 데이터에 대해 주어진 이웃의 개수(k) 만큼 가까운 멤버들과 비교해 결과를 판단하는 방법
    k값에 따라 소속되는 그룹이 달라질 수 있음(k값은 hyper parameter)
    거리를 측정해 이웃들을 뽑기 때문에 스케일링이 중요함
    반응변수가 범주형이면 분류, 연속형이면 회귀 목적으로 사용됨
    모형을 미리 만들지 않고, 새로운 데이터가 들어오면 그때부터 계산을 시작하는 lazy learning이 사용되는 지도학습 알고리즘
    <참고> hyper parameter : 모델을 만드는 사용자가 정해줘야 하는 값, 자동으로 생성되는 값 아님

    SVM(Support Vector Machine)

    서로 다른 분류에 속한 데이터 간의 간격(Margin)이 최대가 되는 선을 찾아 이를 기준으로 데이터 분류하는 모델
    아래 그림에서 H3은 올바르게 분류하지 못하고, H1, H2는 분류를 올바르게 하는데 H2가 H1보다 더 큰 간격을 갖고 분류하므로 이것이 분류 기준이 됨


    728x90
    반응형

    댓글

Designed by Tistory.