ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 - 그래프 종류, 특징
    S T U D Y/DataBase 2023. 1. 26. 21:12
    728x90
    반응형

    산점도
    plot(x, y)
    2개 수치형 변수의 상관관계 알아보기 위해서 사용합니다

    산점도 행렬
    여러 개의 변수 관계를 알아보기 위해 사용합니다


    상자그림
    boxplot()
    이상치 존재를 확인할 때 많이 사용함
    IQR(3사분위-1사분위) 길이, 최소, 최대, 1사분위, 3사분위, 중위값 확인 가능
    NA는 제거하고 그려집니다

    히스토그램
    연속형 수치에 적합함

    막대그래프
    명목형(혈액형, 지역 등) 변수의 빈도에 활용합니다.
    막대 사이가 끊겨져있는 모양임

    * 그래프의 결과가 통계학적 유의미를 갖는 것은 아니다!
    Box plot
    Min : Q1 - 1.5*IQR
    Max : Q3 + 1.5*IQR
    IQR  = Q3-Q1
    중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같고 절반은 이 값보다 크거나 같음
    사분위 간 범위 상자는 데이터의 중간 50%(데이터의 중위수)를 나타내며, 제 1사분위와 제 3사분위수 간의 거리를 보여줌
    수염은 상자의 양쪽에서 연결되고, 특이치를 제외하고 데이터 값의 하위 25%와 상위 25%의 범위를 나타냄
    상자박스는 그룹 간 분포 차이를 비교할 수 있음
    상자박스는 이상치 판단에 적합한 특성을 가지고 있음

    (Ex)
    Q1 = 4, Q3 = 12일 때, 상한과 하한은?
    Q3 + IQR*1.5 = 상한
    Q1 - IQR*1.5 = 하한
    IQR*1.5 = 12
    하한 : -8, 하한 : 24

    히스토그램
    도수 분포표의 각 계급을 가로축에 나타내고, 해당 계급에 속하는 측정값의 도수를 세로축에 표시해서 직사각형 모양으로 그립니다.
    많은 데이터를 가지고 있는 경우 보다 정확한 관계 파악을 할 수 있습니다
    막대 높이는 빈도를 나타내고 폭은 의미가 없음
    가로, 세로축 모두 연속적임
    범주형에는 막대그래프를 사용함
    히스토그램은 분포의 봉우리와 산포를 확인할 수 있음
    표본크기가 클 수록 데이터 분포를 정확하게 진단 가능
    히스토그램에서 양쪽 끝의 고립된 막대가 특이치를 의미함
    연속형 자료에 적합하며, 범주형자료는 막대그래프를 이용함




    728x90
    반응형

    댓글

Designed by Tistory.