S T U D Y/DataBase
-
ADsP 데이터분석준전문가 3과목 - 집중화 경향, 통계 기본 용어, 사건의 종류S T U D Y/DataBase 2023. 1. 28. 13:51
평균 (mean) 값들의 무게 중심이 어디인지 나타내는 값. 산술 평균 양 꼬리값의 크기가 변할 때 영향을 크게 받음 중앙값(median) 자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값 양 꼬리 값의 크기가 변하더라도 영향을 거의 받지 않음 최빈값(mode) 어떤 값이 가장 많이 관찰되는지 나타낸 값 Negaive-SKewed Mean Median > Mode 데이터의 퍼짐 정도 측정 산포도 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음. 변동성이 커짐. 산포도가 작으면 변량들이 평균 주위에 밀집 되어있고, 변동성이 작아짐. 범위, 사분위수 범위, 분산, ..
-
ADsP 데이터분석준전문가 3과목 - 통계량, 표본추출, 척도의 종류S T U D Y/DataBase 2023. 1. 27. 23:02
모집단 - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상 (데이터 전체 집합) - 예시) 대통령 후보의 지지율 - 유권자 모수 - 모집단의 특성을 나타내는 수치들 - 모집단의 평균(그리스어 뮤 기호), 분산(시그마 제곱) 같은 수치들을 모수라고 함 표본 - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출한 것 - 추출한 표본으로 모집단의 특성을 추론함(오차발생) - (예시) 각종 여론조사에 참여한 유권자 통계량 - 표본의 특성을 나타내는 수치들 - 표본의 평균(엑스바), 분산(s제곱) 같은 수치를 통계량이라고 함 모수와 통계량 기호를 구분해서 인지하기 확률적 표본추출법의 종류 단순 무작위추출 - 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우 - 모집단의 개체수 N,..
-
ADsP 데이터분석준전문가 3과목 - 결측치, 이상치S T U D Y/DataBase 2023. 1. 27. 22:22
단순대치법 1번 연산 완전히 응답한 개체분석 - 불완전한 자료는 모두 무시 - 부분적으로 관측된 자료를 무시하기 때문에 효율성 상실, 통계적 추론의 타당성 문제가 존재함 평균대치법 - 관측 또는 실험을 통해 얻어진 데이터의 평균으로 결측값 대치 - 비조건부 평균 대치법 : 관측 데이터의 평균값으로 대치 - 조건부 평균 대치법 : 회귀분석을 활용한 대치법 단순확률 대치법 - 평균대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨 단순대치법의 이름정도만 기억 다중대치법 단순대치법을 여러번 수행해서 m개의 가상적 완전 자료를 만듦 추정량 표준오차의 과소추정 또는 계산의 난해성 문제를 가지고 있음 결측치 인식, 선택, 삭제 결측치 칸이 비어있는 경우 결측치 여부는 알기 쉬움 결측치가 있는 경우 다양한 ..
-
ADsP 데이터분석준전문가 - 그래프 종류, 특징S T U D Y/DataBase 2023. 1. 26. 21:12
산점도 plot(x, y) 2개 수치형 변수의 상관관계 알아보기 위해서 사용합니다 산점도 행렬 여러 개의 변수 관계를 알아보기 위해 사용합니다 상자그림 boxplot() 이상치 존재를 확인할 때 많이 사용함 IQR(3사분위-1사분위) 길이, 최소, 최대, 1사분위, 3사분위, 중위값 확인 가능 NA는 제거하고 그려집니다 히스토그램 연속형 수치에 적합함 막대그래프 명목형(혈액형, 지역 등) 변수의 빈도에 활용합니다. 막대 사이가 끊겨져있는 모양임 * 그래프의 결과가 통계학적 유의미를 갖는 것은 아니다! Box plot Min : Q1 - 1.5*IQR Max : Q3 + 1.5*IQR IQR = Q3-Q1 중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같..
-
R관련 기출 문항 풀이 정리S T U D Y/DataBase 2023. 1. 26. 20:40
R의 특성 - R은 다양한 플랫폼에서 사용할 수 있다. - S언어 기반의 프로그래밍 언어다 - 다양한 형태의 데이터 구조를 지원한다 - 무료소프트웨어이면서 복잡한 통계분석 기법이 가능하다 각 열이 서로 다른 타입의 데이터 구조가 가능한 것 - 데이터프레임 타입이 다른 데이터 타입을 하나의 객체로 묶는 구조 - 리스트 * 복합 타입이 가능한 데이터 구조는 데이터 프레임과 리스트가 있음. 데이터 프레임은 행과 열이 존재 리스트는 행과 열이 아니라 다차원구조라는 것이 차이점 벡터 - R에서 벡터는 하나 또는 하나 이상의 스칼라 원소들을 갖는 집합 - 합치는 벡터에 문자형 벡터가 포함되면 문자형 벡터형을 가짐 - 논리연산자 벡터를 숫자형 벡터처럼 사용하는 경우 TRUE는 1의 값을 가짐 - R은 대소문자를 엄격..
-
ADsP 데이터분석준전문가 - dataframe 핸들링 정의, 예시S T U D Y/DataBase 2023. 1. 26. 20:18
데이터프레임 핸들링 데이터 프레임의 새로운변수를 만들거나 조건이나 목록으로 선택하고 열, 열 목록을 제거하고 열 이름을 바꾸는 것을 말함 R의 데이터셋 사용 head(x, n) : 데이터 셋 처음 여섯 개 반환, n지정 시 개수 만큼 반환 tail(x, n) : 데이터 셋 마지막 여섯 개 반환, n지정 시 개수 만큼 반환 View(x) : 창을 열고 엑셀과 유사한 형태로 데이터 셋을 보여줌 summary(x) : 데이터 셋을 구성하는 항목의 기초 통계량을 보여줌 (최솟값, 1사분위수, 중간값, 평균, 3사분위수, 최댓값) str(x) : 데이터의 구성을 표시 head, tail, summary, str : vector, matrix 등의 다양한 객체에 적용 가능 View : matrix, data.fra..
-
ADsP 데이터분석준전문가 3과목 - dataframe 생성함수, dataframe 예시, 인덱싱 예시S T U D Y/DataBase 2023. 1. 25. 22:33
data.frame 엑셀 워크시트와 같은 2차원 데이터 여러 가지 데이터 유형을 가질 수 있음 벡터가 모여 프레임을 구성함 (Ex) ---------------------------- Vector Vector [name] [gender] Tom F => data.frame Jerry M Cindy F Mark F --------------------------- data.frame 생성함수 data.frame(vector나 matrix, stringsAsFactors) 벡터의 길이는 모두 같아야 함 stringsAsFactors를 TRUE로 지정하면 문자열을 factor로 저장함 dataframe 예시 name