ADsP3과목
-
ADsP 데이터분석준전문가 - 다중공선성, 설명변수 선택방법S T U D Y/DataBase 2023. 2. 3. 22:16
다중공선성 모형의 일부 설명변수(=독립변수)가 다른 설명변수와 상관되어 있을 때 발생하는 조건 중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됨 R의 vif 함수를 사용해서 구할 수 있고, VIF > 10 이면 다중공선성 존재한다고 봄 다중공선성 해결방법 높은 상관관계가 있는 설명변수를 모형에서 제거 설명변수를 제거하면 대부분 R-square(결정계수)가 감소 => 설명력 감소 그래서 단계적 회귀분석을 이용해서 제거함 설명변수의 선택 원칙 y에 영향을 끼칠 수 있는 모든 설명변수 x들은 y값을 예측하는데 참여시킴 설명변수 x들의 수가 많아지면 관리에 많은 노력이 요구돼서 가능한 범위 내에 적은 수의 설명변수를 포함시켜야 함 두 원칙이 이율배반적이어서 적절한..
-
ADsP 데이터분석 준전문가 - 회귀분석, 회귀 모형의 가정, 회귀 모형의 해석S T U D Y/DataBase 2023. 1. 31. 20:56
독립변수(=설명 변수) 다른 변수에 영향 받지 않고 독립적으로 변화하는 수 종속변수 독립변수의 영향 받아 값이 변화하는 수 분석 대상이 되는 변수 결과물이나 효과를 나타냄 잔차(오차항) 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 오차 : 모집단, 잔차 : 표본집단 잔차의 독립성 가정에 대한 검토는 더빈 왓슨 통계량을 이용함 회귀분석 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법 독립변수 값에 의해 종속변수 값을 예측하기 위함 종속변수가 연속형 변수일 때 가능 이산형 - 명목, 서열척도 연속형 - 구간, 비율척도 선형회귀 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법 단순선형회귀모형 독립변수 1개 일 때 i번째 종속변수 =..
-
ADsP 데이터분석준전문가 - 모수, 비모수 추론S T U D Y/DataBase 2023. 1. 30. 23:00
모수적추론 모집단에 특정 분포를 가정하고 분포의 특성을 결정하는 모수에 대해 추론하는 방법 자료가 정규분포, 등간척도, 비율척도인 경우(온도, 물가지수, 몸무게, 자녀수) n>30일 경우 정규성 검정 없이 모수적 추론 가능 10~30사이일 경우 정규성 검정한 뒤, 정규성 가지면 모수적추론 6월 "평균 기온은 30도"이다 모수적검정 검정하고자 하는 모집단의 분포에 대해 가정하고 그 가정하에 검정 통계량과 검정 통계량의 분포를 유도해 검정 실시 모수적 통계의 전제조건 표본의 모집단이 정규분포 집단 내의 분산 같아야 함 변인(=변수)은 등간척도나 비율척도로 측정돼야 함. 그게 아니면 비모수통계를 사용해야됨 모수적 검정방법 [T-test] one sample T test - 단일 표본의 평균 검정을 위한 방법 ..
-
ADsP 데이터분석준전문가 - 추정량, 점추정, 구간추정, 가설검정S T U D Y/DataBase 2023. 1. 30. 22:05
추정 통계량을 이용해 모집단의 모수를 구체적으로 추측하는 과정 추정량 모수를 추정하기 위한 관찰 가능한 표본의 식 또는 표본의 함수 추정값 표본의 식 또는 함수에 실제 관찰치를 대입해서 계산한 값 좋은 추정량 판단 기준 일치성 : 표본의 크기가 커짐에 따라 표본 오차가 작아져야 함 비편향성, 불편성 : 편향 = 추정량의 기댓값 - 실제값(=모수의 값) 추정량의 기댓값이 모수의 값과 같아야 함 효율성 : 추정량의 분산이 될 수 있는 대로 작아야 함(최소분산 추정량) MSE(Mean Square Error)가 작아야 함 점추정 통계량 하나를 구하고 그것을 가지고 모수를 측정하는 방법 모수가 특정할 값일 것이라고 추정하는 것 (예시) A과목 수강 전체 학생 중 50명 뽑아서 조사한 결과 기말 점수가 80점 이..
-
ADsP 데이터분석준전문가 3과목 - 확률분포, 이산형 확률분포, 연속형 확률분포, 통계적 추론S T U D Y/DataBase 2023. 1. 28. 18:08
분포 일정한 범위 안에 흩어져 퍼져 있는 정도 확률변수 random variale 확률 현상에 기인해서 결과값이 확률적으로 정해지는 변수 확률현상 : 어떤 결과들이 나올지 알지만, 가능한 결과 값 중 어떤 결과가 나올지 모르는 현상 확률분포 어떤 확률변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시 (예시) 동전을 2번 던질 때 앞면이 나온 횟수 앞면횟수 0 1 2 합 확률 1/4 1/2 1/4 1 이산형확률분포 Discrete(별개의), 확률변수가 몇 개의 한정된 가능한 값을 가지는 분포 각 사건은 서로 독립이어야 함 이항분포, 베르누이분포, 기하분포, 포아송분포 베르누이분포 실험 결과 두 가지 중의 하나로 나오는 시행 결과를 0 또는 1로 대응시키는 확률변수X에 대해 아래 식을 ..
-
ADsP 데이터분석준전문가 3과목 - 집중화 경향, 통계 기본 용어, 사건의 종류S T U D Y/DataBase 2023. 1. 28. 13:51
평균 (mean) 값들의 무게 중심이 어디인지 나타내는 값. 산술 평균 양 꼬리값의 크기가 변할 때 영향을 크게 받음 중앙값(median) 자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값 양 꼬리 값의 크기가 변하더라도 영향을 거의 받지 않음 최빈값(mode) 어떤 값이 가장 많이 관찰되는지 나타낸 값 Negaive-SKewed Mean Median > Mode 데이터의 퍼짐 정도 측정 산포도 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음. 변동성이 커짐. 산포도가 작으면 변량들이 평균 주위에 밀집 되어있고, 변동성이 작아짐. 범위, 사분위수 범위, 분산, ..
-
ADsP 데이터분석준전문가 3과목 - 통계량, 표본추출, 척도의 종류S T U D Y/DataBase 2023. 1. 27. 23:02
모집단 - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상 (데이터 전체 집합) - 예시) 대통령 후보의 지지율 - 유권자 모수 - 모집단의 특성을 나타내는 수치들 - 모집단의 평균(그리스어 뮤 기호), 분산(시그마 제곱) 같은 수치들을 모수라고 함 표본 - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출한 것 - 추출한 표본으로 모집단의 특성을 추론함(오차발생) - (예시) 각종 여론조사에 참여한 유권자 통계량 - 표본의 특성을 나타내는 수치들 - 표본의 평균(엑스바), 분산(s제곱) 같은 수치를 통계량이라고 함 모수와 통계량 기호를 구분해서 인지하기 확률적 표본추출법의 종류 단순 무작위추출 - 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우 - 모집단의 개체수 N,..
-
ADsP 데이터분석준전문가 3과목 - 결측치, 이상치S T U D Y/DataBase 2023. 1. 27. 22:22
단순대치법 1번 연산 완전히 응답한 개체분석 - 불완전한 자료는 모두 무시 - 부분적으로 관측된 자료를 무시하기 때문에 효율성 상실, 통계적 추론의 타당성 문제가 존재함 평균대치법 - 관측 또는 실험을 통해 얻어진 데이터의 평균으로 결측값 대치 - 비조건부 평균 대치법 : 관측 데이터의 평균값으로 대치 - 조건부 평균 대치법 : 회귀분석을 활용한 대치법 단순확률 대치법 - 평균대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨 단순대치법의 이름정도만 기억 다중대치법 단순대치법을 여러번 수행해서 m개의 가상적 완전 자료를 만듦 추정량 표준오차의 과소추정 또는 계산의 난해성 문제를 가지고 있음 결측치 인식, 선택, 삭제 결측치 칸이 비어있는 경우 결측치 여부는 알기 쉬움 결측치가 있는 경우 다양한 ..