S T U D Y
-
ADsP 데이터분석준전문가 3과목 - dataframe 생성함수, dataframe 예시, 인덱싱 예시S T U D Y/DataBase 2023. 1. 25. 22:33
data.frame 엑셀 워크시트와 같은 2차원 데이터 여러 가지 데이터 유형을 가질 수 있음 벡터가 모여 프레임을 구성함 (Ex) ---------------------------- Vector Vector [name] [gender] Tom F => data.frame Jerry M Cindy F Mark F --------------------------- data.frame 생성함수 data.frame(vector나 matrix, stringsAsFactors) 벡터의 길이는 모두 같아야 함 stringsAsFactors를 TRUE로 지정하면 문자열을 factor로 저장함 dataframe 예시 name
-
ADsP 데이터분석준전문가 3과목 matrix(행렬), array(리스트) 실행 예시S T U D Y/DataBase 2023. 1. 25. 19:42
행렬 데이터 형태가 2차원으로 행과 열의 개념을 가지고 있음 하나의 데이터 유형만 가능 역행렬은 solve()로 구함 행렬생성함수 값의 입력방향이 열이며(default), byrow=TRUE로 지정시 행 방향으로 변경됨 matrix(data=NA, nrow=1, ncol=1, byrow=FALSE, dimnames=NULL rbind(vetors or matrics), cbind(vectors or matrics) 행렬 결과 예시 m1 = matrix(seq(1, 10), nrow=5) 1 6 2 7 3 8 4 9 5 10 m2 = matrix(seq(1, 6), ncol=3) 1 3 5 2 4 6 m1 = matrix(seq(1, 10), nrow=5, byrow=TRUE) 1 2 3 4 5 6 7 8..
-
ADsP - 확률분포S T U D Y/DataBase 2023. 1. 18. 20:43
이산형 확률분포 베르누이분포 - 실험 결과 두 가지 중의 하나로 나오는 시행의 결과를 0 또는 1의 값으로 대응시키는 확률변수 X에 대해 아래 식을 만족하는 확률변수 X가 따르는 확률분포 P(X=0) = p, P(X=1) = q, 0 구간추정 : 모수를 포함할 것으로 기대되는 구간을 확률적으로 구함 가설검정 : 모수에 대한 가정을 세우고 그 가설의 옳고 그름을 확률적으로 판정하는 방법론 * 귀무가설,대립가설,유의확률 등의 의미에 대해 알아놓아야 함 모수처리 방식에 따른 통계적 추론의 분류 Frequentist Bayesian 표준편차 : 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 대표적 수치. 관측값 - 평균 표준오차 : 표본에서 전체 개체가 가지는 값들의 차이가 얼마나 큰지 나타냄 오차한계 ..
-
ADsP 데이터 분석 - 통계분석S T U D Y/DataBase 2023. 1. 17. 19:59
통계학개론 모집단 : - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상(데이터 전체 집합) - (예시) 대통령 후보의 지지율 - 유권자 모수 : - 모집단의 특성을 나타내는 수치들 - 모집단의 평균, 분산 같은 수치들을 모수라고 함. 표본 : - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling)한 것 - 추출(sampling)한 표본으로 모집단의 특성을 추론함(오차 발생) - (예시) 각종 여론조사에 참여한 유권자 통계량 : - 표본의 특성을 나타내는 수치들 - 표본의 평균, 분산 같은 수치를 통계량이라고 함. 표본추출 자주 출제됨 단순 무작위 추출 : - 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우 - 모집단의 개체 수 N, 표본 수 n일 때 개..
-
adsp 3과목 - 데이터 분석S T U D Y/DataBase 2023. 1. 17. 19:08
Summary함수 연속형 : - 최솟값, 1사분위수, 중간값, 평균, 3사분위수, 최댓값 범주형 : - 범주, 범주별 데이터 개수가 콜론으로 구분돼 표시 결측치 대치법 단순 대치법 : - 완전 응답 개체분석 - 평균 대치법 - 단순확률 대치법 * 종류, 특징 읽어봐야 함 다중 대치법 : - 추정량 표준오차의 과소추정 - 계산의 난해성 문제 이상값 - 평균-3*표준편차, 평균+3*표준편차 밖의 값 - Q1 = IQR*1.5, Q3 + IQR*1.5 밖의 값 - IQR(사분위수범위) = Q3-Q1 ㄴ> 데이터를 쭉 늘어놓았을 때 중간에 있는 값을 IQR이라고 함. Q3은 75% 위치, Q1은 25%위치 ㄴ> 확률분포 또는 자료의 가운데 50%가 포함되는 구간의 길이 - 분석 대상이 될 수 있어서 무조건 삭제..
-
Adsp - 데이터의 정의, 데이터의 유형, 암묵지와 형식지, DIKW, 데이터베이스, DBMS, 스키마와 인스턴스S T U D Y/DataBase 2023. 1. 14. 13:50
데이터의 정의 두 개의 특성이 동시에 존재 - 존재적 특성 : 객관적 사실 - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거로 기능 출제포인트 존재적, 당위적 특성이 출제 포인트 데이터는 존재적 특성. 즉, 객관적 사실과 당위적 특성. 즉, 추론, 예측, 전망 등을 위한 근거가 상호작용할 때 데이터의 가치를 느낀다고 할 수 있음. "객관적 사실로서 개별 데이터는 중요하지 않음을 의미한다." => 정답 "객관적 사실로서 개별 데이터는 중요하다" => 오답 데이터의 유형 - 정성적 데이터 : 1) 언어, 문자 등 형태와 형식이 정해져 있지 않음. 2) 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요함 3) 숫자나 금액으로 환산 할 수 없음 (예시) 설문조사 주관식 응답, 트위터, 페이스북 등..