S T U D Y
-
ADsP 데이터분석준전문가 - 시계열 예측, 시계열 모형S T U D Y/DataBase 2023. 2. 4. 19:06
시계열자료 시간의 흐름에 따라 관측된 데이터 시계열데이터(자료)는 정상성을 못하면 분석할 수 없다는 틀린 지문. 정상성을 갖지 않는 자료는 정상성 갖도록 변환한 후 시계열자료를 만들 수 있음 정상성 시계열의 평균과 분산에 체계적인 변화 및 주기적 변동이 없다는 것 미래는 확률적으로 과거와 동일 시점에 상관없이 시계열의 특성이 일정한 것 정상시계열의 조건 평균은 모든 시점(시간t)에 대해 일정하다 = 평균이 일정하다 분산은 모든 시점(시간t)에 대해 일정하다 = 분산이 시점에 의존하지 않는다 공분산은 시점(시간t)에 의존하지 않고, 시차에만 의존한다. = 시점에는 의존하지 않고, 시차에만 의존한다. 의존하지않는다 = 관계없다, 관계없이 일정하다. 정상시계열로 전환하는 방법 평균이 일정하지 않은 경우 : 원..
-
ADsP 데이터분석준전문가 - 차원 축소 기법S T U D Y/DataBase 2023. 2. 4. 17:35
차원축소 목표를 위해 개발된 분석 방법 주성분분석 요인분석 판별분석 군집분석 정준상관분석 다차원척도법 차원축소기법 - 다차원척도법 객체간 근접성을 시각화함 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현해 군집을 시각적으로 표현하는 분석법 개체들의 거리는 유클리드 거리와 유사도를 이용해서 구함 관측 대상의 상대적 거리 정확도를 높이기 위해 적합 정도를 스트레스 값으로 나타내고 0에 가까울수록 적합도가 좋다 차원축소기법 - 주성분 분석(PCA) 공분산행렬 또는 상관계수 행렬 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 분산을 극대화하는 변수로 축약 주성분은 변수들의 선형결합(축을 회전해 직교하는 성분으로 변환)으로 이루어져 있음 분산을 최대화 함 독립변수들과 주성분과의 거리인 '..
-
ADsP 데이터분석준전문가 - 상관분석, 피어슨 스피어만 상관계수S T U D Y/DataBase 2023. 2. 4. 17:01
상관계수 두 변수의 관련성의 정도를 의미합니다(-1 ~ 1의 값으로 나타냄) 상관관계가 존재하지 않으면 상관계수는 0임 상관관계가 높다고 인과관계가 있다고 할 수는 없음 R의 cor.test()함수를 사용해 상관계수 검정을 수행하고 유의성검정을 판단할 수 있음 피어슨 상관계수 두 변수간의 선형적 크기만 측정 가능 등간척도, 비율척도 사용 피어슨 상관계수 = x, y의 공분산/ x표준편차 * y표준편차 (예시) 응답자1의 표준편차2, 응답자2의 표준편차2, 두 응답자의 공분산 4라고 하면 피어슨 상관계수 = 4 / (2*2) = 1 스피어만 상관계수 두 변수 간 비선형적 관계도 나타낼 수 있음 대상자료는 서열척도 사용 각 변수에 대해 순위를 매긴 값을 기반으로 함 두 변수 안의 순위가 완전일치하면 1, 완..
-
ADsP 데이터분석준전문가 - 과대적합, Regularization, ScalingS T U D Y/DataBase 2023. 2. 4. 16:35
과적합(Overfitting) 주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음 해결 방법으로 Feature 개수 줄이거나 Regularization 수행하는 방법 있음 Regularization(정규화) 베타 값에 제약을 주어 모델에 변화를 주는 것 람다 값은 정규화 모형을 조정하는 hyper parameter 람다 값이 클수록 제약이 많아져 적은 변수가 사용되고, 해석이 쉬워지지만 underfitting 됨 람다 값이 작아지면 제약이 적어져 많은 변수가 사용되지만, 해석이 어려워지고 overfitting됨 L1, L2 Norm Norm 선형대수학에서 벡터의 크기나 길이를 측정하는 방법 ..
-
ADsP 데이터분석준전문가 - 다중공선성, 설명변수 선택방법S T U D Y/DataBase 2023. 2. 3. 22:16
다중공선성 모형의 일부 설명변수(=독립변수)가 다른 설명변수와 상관되어 있을 때 발생하는 조건 중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됨 R의 vif 함수를 사용해서 구할 수 있고, VIF > 10 이면 다중공선성 존재한다고 봄 다중공선성 해결방법 높은 상관관계가 있는 설명변수를 모형에서 제거 설명변수를 제거하면 대부분 R-square(결정계수)가 감소 => 설명력 감소 그래서 단계적 회귀분석을 이용해서 제거함 설명변수의 선택 원칙 y에 영향을 끼칠 수 있는 모든 설명변수 x들은 y값을 예측하는데 참여시킴 설명변수 x들의 수가 많아지면 관리에 많은 노력이 요구돼서 가능한 범위 내에 적은 수의 설명변수를 포함시켜야 함 두 원칙이 이율배반적이어서 적절한..
-
ADsP 데이터분석 준전문가 - 회귀분석, 회귀 모형의 가정, 회귀 모형의 해석S T U D Y/DataBase 2023. 1. 31. 20:56
독립변수(=설명 변수) 다른 변수에 영향 받지 않고 독립적으로 변화하는 수 종속변수 독립변수의 영향 받아 값이 변화하는 수 분석 대상이 되는 변수 결과물이나 효과를 나타냄 잔차(오차항) 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 오차 : 모집단, 잔차 : 표본집단 잔차의 독립성 가정에 대한 검토는 더빈 왓슨 통계량을 이용함 회귀분석 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법 독립변수 값에 의해 종속변수 값을 예측하기 위함 종속변수가 연속형 변수일 때 가능 이산형 - 명목, 서열척도 연속형 - 구간, 비율척도 선형회귀 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법 단순선형회귀모형 독립변수 1개 일 때 i번째 종속변수 =..
-
ADsP 데이터분석준전문가 - 모수, 비모수 추론S T U D Y/DataBase 2023. 1. 30. 23:00
모수적추론 모집단에 특정 분포를 가정하고 분포의 특성을 결정하는 모수에 대해 추론하는 방법 자료가 정규분포, 등간척도, 비율척도인 경우(온도, 물가지수, 몸무게, 자녀수) n>30일 경우 정규성 검정 없이 모수적 추론 가능 10~30사이일 경우 정규성 검정한 뒤, 정규성 가지면 모수적추론 6월 "평균 기온은 30도"이다 모수적검정 검정하고자 하는 모집단의 분포에 대해 가정하고 그 가정하에 검정 통계량과 검정 통계량의 분포를 유도해 검정 실시 모수적 통계의 전제조건 표본의 모집단이 정규분포 집단 내의 분산 같아야 함 변인(=변수)은 등간척도나 비율척도로 측정돼야 함. 그게 아니면 비모수통계를 사용해야됨 모수적 검정방법 [T-test] one sample T test - 단일 표본의 평균 검정을 위한 방법 ..
-
ADsP 데이터분석준전문가 - 추정량, 점추정, 구간추정, 가설검정S T U D Y/DataBase 2023. 1. 30. 22:05
추정 통계량을 이용해 모집단의 모수를 구체적으로 추측하는 과정 추정량 모수를 추정하기 위한 관찰 가능한 표본의 식 또는 표본의 함수 추정값 표본의 식 또는 함수에 실제 관찰치를 대입해서 계산한 값 좋은 추정량 판단 기준 일치성 : 표본의 크기가 커짐에 따라 표본 오차가 작아져야 함 비편향성, 불편성 : 편향 = 추정량의 기댓값 - 실제값(=모수의 값) 추정량의 기댓값이 모수의 값과 같아야 함 효율성 : 추정량의 분산이 될 수 있는 대로 작아야 함(최소분산 추정량) MSE(Mean Square Error)가 작아야 함 점추정 통계량 하나를 구하고 그것을 가지고 모수를 측정하는 방법 모수가 특정할 값일 것이라고 추정하는 것 (예시) A과목 수강 전체 학생 중 50명 뽑아서 조사한 결과 기말 점수가 80점 이..