ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 - 과대적합, Regularization, Scaling
    S T U D Y/DataBase 2023. 2. 4. 16:35
    728x90
    반응형

    과적합(Overfitting)

    주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석
    샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음
    해결 방법으로 Feature 개수 줄이거나 Regularization 수행하는 방법 있음

    Regularization(정규화)

    베타 값에 제약을 주어 모델에 변화를 주는 것
    람다 값은 정규화 모형을 조정하는 hyper parameter
    람다 값이 클수록 제약이 많아져 적은 변수가 사용되고, 해석이 쉬워지지만 underfitting 됨
    람다 값이 작아지면 제약이 적어져 많은 변수가 사용되지만, 해석이 어려워지고 overfitting됨

    L1, L2 Norm

    Norm
    선형대수학에서 벡터의 크기나 길이를 측정하는 방법
    L1 norm(=Manhattan norm) : 벡터의 모든 성분의 절대값 더함
    L2 norm(=Euclidean norm) : 출발점에서 도착점까지의 거리를 직선거리로 측정
    x= [2 3]
    L1 norm = |2|+ |3| = 5
    L2 norm = 루트 (2제곱+3제곱) = 루트13

    Regularized Linear Regression

    라쏘 회귀 특징

    변수 선택 가능
    변수간 상관관계가 높으면 성능 떨어짐
    L1 norm(manhattan)을 패널티로 가진 선형 회귀방법
    회귀계수의 절대값이 클 수록 패널티 부여
    w의 모든 원소가 0이 되거나 0에 가깝게 돼야 함 =>불필요 특성 제거 및 자동적으로 변수선택
    람다값이 너무 크면 모든 항들에 대해 너무 많이 panalty가 적용되어 model에 데이터를 잘 설명하지 못하는 underfitting 문제가 발생할 것임
    자동적으로 변수선택을 하는 효과가 있음
    가중치들이 0이 되게 함으로써 그에 해당하는 특성을 제외해줌
    모델 해석력이 좋아짐

    Ridge 회귀 특성

    L2 norm(Euclidean) 사용해서 패널티 주는 방식
    변수 선택 불가능
    Lasso는 가중치가 0이 되지만 Ridge의 가중치들은 0에 가까워질뿐 0이 되지는 않음
    중요도가 전체적으로 비슷하면 Ridge가 좀 더 괜찮은 모델을 찾아줌

    엘라스틱넷 특성

    L1, L2 norm regularization
    변수 선택 가능
    변수간 상관관계를 반영한 정규화

    데이터 스케일링

    데이터 단위의 불일치 문제를 해결함

    정규화

    값의 범위를 [0, 1]로 변환하는 것
    0, 100점일 경우 50점은? 50-0/100 = 0.5

    표준화

    특성의 값이 정규분포를 갖도록 변환
    평균0, 표준편차1
    따라서 음수가 나올 수도 있음
    평균80, 표준편차10일경우 90점은? 90-80/10 = 1

    MAPE(Mean Absolute Percentage Errors)

    MSE, RMSE와 같이 큰 에러에 패널티를 부여하는 평가지표의 단점을 극복하기 위한 방법
    실제값과 예측값의 차이/실제값 에 대한 절대값을 모두 합해 데이터의 개수 n으로 나누고 100을 곱함
    (예시)
    Actual 1 2 4 8
    Forecast 0.7 2.5 3.6 10

    n=4
    |(1-0.7)/1| + |(2-2.5)/2| + | (4-3.6)/4| + |(8-10)/8|
    = 0.3/1 + 0.5/2 + 0.4/4 + 2/8 = 0.3+0.25+0.1+0.25
    MAPE = 0.9/4*100 = 22.5%


    728x90
    반응형

    댓글

Designed by Tistory.