-
ADsP 데이터분석준전문가 - 과대적합, Regularization, ScalingS T U D Y/DataBase 2023. 2. 4. 16:35728x90반응형
과적합(Overfitting)
주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석
샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음
해결 방법으로 Feature 개수 줄이거나 Regularization 수행하는 방법 있음Regularization(정규화)
베타 값에 제약을 주어 모델에 변화를 주는 것
람다 값은 정규화 모형을 조정하는 hyper parameter
람다 값이 클수록 제약이 많아져 적은 변수가 사용되고, 해석이 쉬워지지만 underfitting 됨
람다 값이 작아지면 제약이 적어져 많은 변수가 사용되지만, 해석이 어려워지고 overfitting됨L1, L2 Norm
Norm
선형대수학에서 벡터의 크기나 길이를 측정하는 방법
L1 norm(=Manhattan norm) : 벡터의 모든 성분의 절대값 더함
L2 norm(=Euclidean norm) : 출발점에서 도착점까지의 거리를 직선거리로 측정
x= [2 3]
L1 norm = |2|+ |3| = 5
L2 norm = 루트 (2제곱+3제곱) = 루트13Regularized Linear Regression
라쏘 회귀 특징
변수 선택 가능
변수간 상관관계가 높으면 성능 떨어짐
L1 norm(manhattan)을 패널티로 가진 선형 회귀방법
회귀계수의 절대값이 클 수록 패널티 부여
w의 모든 원소가 0이 되거나 0에 가깝게 돼야 함 =>불필요 특성 제거 및 자동적으로 변수선택
람다값이 너무 크면 모든 항들에 대해 너무 많이 panalty가 적용되어 model에 데이터를 잘 설명하지 못하는 underfitting 문제가 발생할 것임
자동적으로 변수선택을 하는 효과가 있음
가중치들이 0이 되게 함으로써 그에 해당하는 특성을 제외해줌
모델 해석력이 좋아짐Ridge 회귀 특성
L2 norm(Euclidean) 사용해서 패널티 주는 방식
변수 선택 불가능
Lasso는 가중치가 0이 되지만 Ridge의 가중치들은 0에 가까워질뿐 0이 되지는 않음
중요도가 전체적으로 비슷하면 Ridge가 좀 더 괜찮은 모델을 찾아줌엘라스틱넷 특성
L1, L2 norm regularization
변수 선택 가능
변수간 상관관계를 반영한 정규화데이터 스케일링
데이터 단위의 불일치 문제를 해결함
정규화
값의 범위를 [0, 1]로 변환하는 것
0, 100점일 경우 50점은? 50-0/100 = 0.5표준화
특성의 값이 정규분포를 갖도록 변환
평균0, 표준편차1
따라서 음수가 나올 수도 있음
평균80, 표준편차10일경우 90점은? 90-80/10 = 1MAPE(Mean Absolute Percentage Errors)
MSE, RMSE와 같이 큰 에러에 패널티를 부여하는 평가지표의 단점을 극복하기 위한 방법
실제값과 예측값의 차이/실제값 에 대한 절대값을 모두 합해 데이터의 개수 n으로 나누고 100을 곱함
(예시)
Actual 1 2 4 8
Forecast 0.7 2.5 3.6 10
n=4
|(1-0.7)/1| + |(2-2.5)/2| + | (4-3.6)/4| + |(8-10)/8|
= 0.3/1 + 0.5/2 + 0.4/4 + 2/8 = 0.3+0.25+0.1+0.25
MAPE = 0.9/4*100 = 22.5%728x90반응형'S T U D Y > DataBase' 카테고리의 다른 글
ADsP 데이터분석준전문가 - 차원 축소 기법 (0) 2023.02.04 ADsP 데이터분석준전문가 - 상관분석, 피어슨 스피어만 상관계수 (0) 2023.02.04 ADsP 데이터분석준전문가 - 다중공선성, 설명변수 선택방법 (0) 2023.02.03 ADsP 데이터분석 준전문가 - 회귀분석, 회귀 모형의 가정, 회귀 모형의 해석 (0) 2023.01.31 ADsP 데이터분석준전문가 - 모수, 비모수 추론 (0) 2023.01.30