adsp요약
-
ADsP 데이터분석준전문가 3과목 - 확률분포, 이산형 확률분포, 연속형 확률분포, 통계적 추론S T U D Y/DataBase 2023. 1. 28. 18:08
분포 일정한 범위 안에 흩어져 퍼져 있는 정도 확률변수 random variale 확률 현상에 기인해서 결과값이 확률적으로 정해지는 변수 확률현상 : 어떤 결과들이 나올지 알지만, 가능한 결과 값 중 어떤 결과가 나올지 모르는 현상 확률분포 어떤 확률변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시 (예시) 동전을 2번 던질 때 앞면이 나온 횟수 앞면횟수 0 1 2 합 확률 1/4 1/2 1/4 1 이산형확률분포 Discrete(별개의), 확률변수가 몇 개의 한정된 가능한 값을 가지는 분포 각 사건은 서로 독립이어야 함 이항분포, 베르누이분포, 기하분포, 포아송분포 베르누이분포 실험 결과 두 가지 중의 하나로 나오는 시행 결과를 0 또는 1로 대응시키는 확률변수X에 대해 아래 식을 ..
-
ADsP 데이터분석준전문가 3과목 - 통계량, 표본추출, 척도의 종류S T U D Y/DataBase 2023. 1. 27. 23:02
모집단 - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상 (데이터 전체 집합) - 예시) 대통령 후보의 지지율 - 유권자 모수 - 모집단의 특성을 나타내는 수치들 - 모집단의 평균(그리스어 뮤 기호), 분산(시그마 제곱) 같은 수치들을 모수라고 함 표본 - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출한 것 - 추출한 표본으로 모집단의 특성을 추론함(오차발생) - (예시) 각종 여론조사에 참여한 유권자 통계량 - 표본의 특성을 나타내는 수치들 - 표본의 평균(엑스바), 분산(s제곱) 같은 수치를 통계량이라고 함 모수와 통계량 기호를 구분해서 인지하기 확률적 표본추출법의 종류 단순 무작위추출 - 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우 - 모집단의 개체수 N,..
-
ADsP 데이터분석준전문가 3과목 - 결측치, 이상치S T U D Y/DataBase 2023. 1. 27. 22:22
단순대치법 1번 연산 완전히 응답한 개체분석 - 불완전한 자료는 모두 무시 - 부분적으로 관측된 자료를 무시하기 때문에 효율성 상실, 통계적 추론의 타당성 문제가 존재함 평균대치법 - 관측 또는 실험을 통해 얻어진 데이터의 평균으로 결측값 대치 - 비조건부 평균 대치법 : 관측 데이터의 평균값으로 대치 - 조건부 평균 대치법 : 회귀분석을 활용한 대치법 단순확률 대치법 - 평균대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨 단순대치법의 이름정도만 기억 다중대치법 단순대치법을 여러번 수행해서 m개의 가상적 완전 자료를 만듦 추정량 표준오차의 과소추정 또는 계산의 난해성 문제를 가지고 있음 결측치 인식, 선택, 삭제 결측치 칸이 비어있는 경우 결측치 여부는 알기 쉬움 결측치가 있는 경우 다양한 ..
-
ADsP - 확률분포S T U D Y/DataBase 2023. 1. 18. 20:43
이산형 확률분포 베르누이분포 - 실험 결과 두 가지 중의 하나로 나오는 시행의 결과를 0 또는 1의 값으로 대응시키는 확률변수 X에 대해 아래 식을 만족하는 확률변수 X가 따르는 확률분포 P(X=0) = p, P(X=1) = q, 0 구간추정 : 모수를 포함할 것으로 기대되는 구간을 확률적으로 구함 가설검정 : 모수에 대한 가정을 세우고 그 가설의 옳고 그름을 확률적으로 판정하는 방법론 * 귀무가설,대립가설,유의확률 등의 의미에 대해 알아놓아야 함 모수처리 방식에 따른 통계적 추론의 분류 Frequentist Bayesian 표준편차 : 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 대표적 수치. 관측값 - 평균 표준오차 : 표본에서 전체 개체가 가지는 값들의 차이가 얼마나 큰지 나타냄 오차한계 ..
-
ADsP 데이터 분석 - 통계분석S T U D Y/DataBase 2023. 1. 17. 19:59
통계학개론 모집단 : - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상(데이터 전체 집합) - (예시) 대통령 후보의 지지율 - 유권자 모수 : - 모집단의 특성을 나타내는 수치들 - 모집단의 평균, 분산 같은 수치들을 모수라고 함. 표본 : - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling)한 것 - 추출(sampling)한 표본으로 모집단의 특성을 추론함(오차 발생) - (예시) 각종 여론조사에 참여한 유권자 통계량 : - 표본의 특성을 나타내는 수치들 - 표본의 평균, 분산 같은 수치를 통계량이라고 함. 표본추출 자주 출제됨 단순 무작위 추출 : - 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우 - 모집단의 개체 수 N, 표본 수 n일 때 개..
-
adsp 3과목 - 데이터 분석S T U D Y/DataBase 2023. 1. 17. 19:08
Summary함수 연속형 : - 최솟값, 1사분위수, 중간값, 평균, 3사분위수, 최댓값 범주형 : - 범주, 범주별 데이터 개수가 콜론으로 구분돼 표시 결측치 대치법 단순 대치법 : - 완전 응답 개체분석 - 평균 대치법 - 단순확률 대치법 * 종류, 특징 읽어봐야 함 다중 대치법 : - 추정량 표준오차의 과소추정 - 계산의 난해성 문제 이상값 - 평균-3*표준편차, 평균+3*표준편차 밖의 값 - Q1 = IQR*1.5, Q3 + IQR*1.5 밖의 값 - IQR(사분위수범위) = Q3-Q1 ㄴ> 데이터를 쭉 늘어놓았을 때 중간에 있는 값을 IQR이라고 함. Q3은 75% 위치, Q1은 25%위치 ㄴ> 확률분포 또는 자료의 가운데 50%가 포함되는 구간의 길이 - 분석 대상이 될 수 있어서 무조건 삭제..
-
Adsp - 데이터의 정의, 데이터의 유형, 암묵지와 형식지, DIKW, 데이터베이스, DBMS, 스키마와 인스턴스S T U D Y/DataBase 2023. 1. 14. 13:50
데이터의 정의 두 개의 특성이 동시에 존재 - 존재적 특성 : 객관적 사실 - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거로 기능 출제포인트 존재적, 당위적 특성이 출제 포인트 데이터는 존재적 특성. 즉, 객관적 사실과 당위적 특성. 즉, 추론, 예측, 전망 등을 위한 근거가 상호작용할 때 데이터의 가치를 느낀다고 할 수 있음. "객관적 사실로서 개별 데이터는 중요하지 않음을 의미한다." => 정답 "객관적 사실로서 개별 데이터는 중요하다" => 오답 데이터의 유형 - 정성적 데이터 : 1) 언어, 문자 등 형태와 형식이 정해져 있지 않음. 2) 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요함 3) 숫자나 금액으로 환산 할 수 없음 (예시) 설문조사 주관식 응답, 트위터, 페이스북 등..