-
ADsP 데이터분석준전문가 - 그래프 종류, 특징S T U D Y/DataBase 2023. 1. 26. 21:12728x90반응형
산점도
plot(x, y)
2개 수치형 변수의 상관관계 알아보기 위해서 사용합니다
산점도 행렬
여러 개의 변수 관계를 알아보기 위해 사용합니다
상자그림
boxplot()
이상치 존재를 확인할 때 많이 사용함
IQR(3사분위-1사분위) 길이, 최소, 최대, 1사분위, 3사분위, 중위값 확인 가능
NA는 제거하고 그려집니다
히스토그램
연속형 수치에 적합함
막대그래프
명목형(혈액형, 지역 등) 변수의 빈도에 활용합니다.
막대 사이가 끊겨져있는 모양임
* 그래프의 결과가 통계학적 유의미를 갖는 것은 아니다!
Box plot
Min : Q1 - 1.5*IQR
Max : Q3 + 1.5*IQR
IQR = Q3-Q1
중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같고 절반은 이 값보다 크거나 같음
사분위 간 범위 상자는 데이터의 중간 50%(데이터의 중위수)를 나타내며, 제 1사분위와 제 3사분위수 간의 거리를 보여줌
수염은 상자의 양쪽에서 연결되고, 특이치를 제외하고 데이터 값의 하위 25%와 상위 25%의 범위를 나타냄
상자박스는 그룹 간 분포 차이를 비교할 수 있음
상자박스는 이상치 판단에 적합한 특성을 가지고 있음
(Ex)
Q1 = 4, Q3 = 12일 때, 상한과 하한은?
Q3 + IQR*1.5 = 상한
Q1 - IQR*1.5 = 하한
IQR*1.5 = 12
하한 : -8, 하한 : 24
히스토그램
도수 분포표의 각 계급을 가로축에 나타내고, 해당 계급에 속하는 측정값의 도수를 세로축에 표시해서 직사각형 모양으로 그립니다.
많은 데이터를 가지고 있는 경우 보다 정확한 관계 파악을 할 수 있습니다
막대 높이는 빈도를 나타내고 폭은 의미가 없음
가로, 세로축 모두 연속적임
범주형에는 막대그래프를 사용함
히스토그램은 분포의 봉우리와 산포를 확인할 수 있음
표본크기가 클 수록 데이터 분포를 정확하게 진단 가능
히스토그램에서 양쪽 끝의 고립된 막대가 특이치를 의미함
연속형 자료에 적합하며, 범주형자료는 막대그래프를 이용함728x90반응형'S T U D Y > DataBase' 카테고리의 다른 글
ADsP 데이터분석준전문가 3과목 - 통계량, 표본추출, 척도의 종류 (0) 2023.01.27 ADsP 데이터분석준전문가 3과목 - 결측치, 이상치 (2) 2023.01.27 R관련 기출 문항 풀이 정리 (0) 2023.01.26 ADsP 데이터분석준전문가 - dataframe 핸들링 정의, 예시 (0) 2023.01.26 ADsP 데이터분석준전문가 - list (1) 2023.01.25