ADsP3과목
-
오분류표S T U D Y/DataBase 2023. 2. 8. 19:23
Precision(정밀도) #실Sen예Pre 예측값이 True인 것에 대해 실제 값이 True인 지표 TP / ( TP + FP) Recall, Sensitivity(재현율, 민감도) 실제 값이 True인 것에 대해 예측 값이 True인 지표 TP / (TP + FN) F1 Score F1 Score는 불균형한 데이터 평가에 사용 정밀도와 재현율의 조화평균 정밀도와 재현율에 같은 가중치를 부여해 평균한 지표 F1 = 2 * ( presicion * recall) / (precision + recall) Accuracy(정확도) 불균형한 레이블 값 분포의 데이터에서는 모델의 성능이 실제로 좋지 못하더라도 정확도가 높을 수 있음 F2 Score F뒤의 숫자는 재현율에 부여하는 가중치를 주는 방식 재현율에 정..
-
ADsP 데이터분석준전문가 - 인공신경망, 모형 평가 방법S T U D Y/DataBase 2023. 2. 5. 20:40
인공신경망 모형 분류 및 예측을 할 수 있음 분석가의 주관과 경험에 따름 풀고자하는 문제 종류에 따라 활성화 함수의 종류가 달라짐 역전파 알고리즘이 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용됨 이상치 잡음에 민감하지 않음 입력, 은닉, 출력층 3개의 층으로 구성돼있음 학습 : 입력에 대한 올바른 출력이 나오도록 가중치를 조절하는 것 bias, variance : 학습 알고리즘이 갖는 두 가지 종류의 error로 trade off 관계 - bias : 지나치게 단순한 모델로 인한 에러, bias가 크면 과소적합(underfitting)야기(=네트워크가 복잡한 의사결정 경계를 만들 수 없음) - variance : 지나치게 복잡한 모델로 인한 에러, varianc..
-
ADsP 데이터분석준전문가 - 앙상블, k-NN, SVMS T U D Y/DataBase 2023. 2. 5. 19:34
앙상블 모형 여러 개의 분류 모형에 의한 결과를 종합해 분류의 정확도를 높임 약하게 학습된 여러 모델들을 결합해 사용 성능 분산시키기 위해 과적합 감소 효과가 있음 앙상블 모형의 종류 voting 서로 다른 여러 개 알고리즘 분류기 사용 hard voting 각 모델 예측 결과 중 많은 것을 선택 1 예측 3표, 2예측 2표 이면 1 예측 선택 Soft voting 각 모델의 클래스 확률을 구하고 평균이 높은 확률을 선택 (예시) A분류기 : 1번, 0.9 B분류기 : 1번, 0.8 C분류기 : 2번, 0.7 D분류기 : 1번, 0.4 1 예측 : (0.9+0.8+0.3+0.4)/4 = 0.6 => 1예측 선택 2 예측 : (0.1+0.2+0.3+0.6)/4 = 0.4 배깅(Bagging, Bootstr..
-
ADsP 데이터분석준전문가 - 의사결정나무S T U D Y/DataBase 2023. 2. 5. 17:46
의사결정나무(Decision Tree) 해당 그림에서 깊이(depth)는 3임. 가지의 갯수) 독립변수(=설명변수, 예측변수, Feature) 종속변수(=목표변수, 반응변수, Label) 특징 새로운 데이터 분류 또는 값 예측 분리변수 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음 부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해나감(불순도 감소) 종류 목표변수(=종속변수)가 이산형인 경우 분류나무 목표변수가 연속형인 경우 회귀나무 장점 구조가 단순해서 해석 용이 비모수적 모형으로 수학적 가정 불필요 범주형(이산형)과 수치형(연속형) 변수 모두 사용 가능 단점 분류 기준값의 경계선 부근의 자료 값에 대해서는 오차가 큼 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어려움 새로운 ..
-
ADsP 데이터분석준전문가 - 시계열 예측, 시계열 모형S T U D Y/DataBase 2023. 2. 4. 19:06
시계열자료 시간의 흐름에 따라 관측된 데이터 시계열데이터(자료)는 정상성을 못하면 분석할 수 없다는 틀린 지문. 정상성을 갖지 않는 자료는 정상성 갖도록 변환한 후 시계열자료를 만들 수 있음 정상성 시계열의 평균과 분산에 체계적인 변화 및 주기적 변동이 없다는 것 미래는 확률적으로 과거와 동일 시점에 상관없이 시계열의 특성이 일정한 것 정상시계열의 조건 평균은 모든 시점(시간t)에 대해 일정하다 = 평균이 일정하다 분산은 모든 시점(시간t)에 대해 일정하다 = 분산이 시점에 의존하지 않는다 공분산은 시점(시간t)에 의존하지 않고, 시차에만 의존한다. = 시점에는 의존하지 않고, 시차에만 의존한다. 의존하지않는다 = 관계없다, 관계없이 일정하다. 정상시계열로 전환하는 방법 평균이 일정하지 않은 경우 : 원..
-
ADsP 데이터분석준전문가 - 차원 축소 기법S T U D Y/DataBase 2023. 2. 4. 17:35
차원축소 목표를 위해 개발된 분석 방법 주성분분석 요인분석 판별분석 군집분석 정준상관분석 다차원척도법 차원축소기법 - 다차원척도법 객체간 근접성을 시각화함 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현해 군집을 시각적으로 표현하는 분석법 개체들의 거리는 유클리드 거리와 유사도를 이용해서 구함 관측 대상의 상대적 거리 정확도를 높이기 위해 적합 정도를 스트레스 값으로 나타내고 0에 가까울수록 적합도가 좋다 차원축소기법 - 주성분 분석(PCA) 공분산행렬 또는 상관계수 행렬 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 분산을 극대화하는 변수로 축약 주성분은 변수들의 선형결합(축을 회전해 직교하는 성분으로 변환)으로 이루어져 있음 분산을 최대화 함 독립변수들과 주성분과의 거리인 '..
-
ADsP 데이터분석준전문가 - 상관분석, 피어슨 스피어만 상관계수S T U D Y/DataBase 2023. 2. 4. 17:01
상관계수 두 변수의 관련성의 정도를 의미합니다(-1 ~ 1의 값으로 나타냄) 상관관계가 존재하지 않으면 상관계수는 0임 상관관계가 높다고 인과관계가 있다고 할 수는 없음 R의 cor.test()함수를 사용해 상관계수 검정을 수행하고 유의성검정을 판단할 수 있음 피어슨 상관계수 두 변수간의 선형적 크기만 측정 가능 등간척도, 비율척도 사용 피어슨 상관계수 = x, y의 공분산/ x표준편차 * y표준편차 (예시) 응답자1의 표준편차2, 응답자2의 표준편차2, 두 응답자의 공분산 4라고 하면 피어슨 상관계수 = 4 / (2*2) = 1 스피어만 상관계수 두 변수 간 비선형적 관계도 나타낼 수 있음 대상자료는 서열척도 사용 각 변수에 대해 순위를 매긴 값을 기반으로 함 두 변수 안의 순위가 완전일치하면 1, 완..
-
ADsP 데이터분석준전문가 - 과대적합, Regularization, ScalingS T U D Y/DataBase 2023. 2. 4. 16:35
과적합(Overfitting) 주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음 해결 방법으로 Feature 개수 줄이거나 Regularization 수행하는 방법 있음 Regularization(정규화) 베타 값에 제약을 주어 모델에 변화를 주는 것 람다 값은 정규화 모형을 조정하는 hyper parameter 람다 값이 클수록 제약이 많아져 적은 변수가 사용되고, 해석이 쉬워지지만 underfitting 됨 람다 값이 작아지면 제약이 적어져 많은 변수가 사용되지만, 해석이 어려워지고 overfitting됨 L1, L2 Norm Norm 선형대수학에서 벡터의 크기나 길이를 측정하는 방법 ..