ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • adsp 3과목 - 데이터 분석
    S T U D Y/DataBase 2023. 1. 17. 19:08
    728x90
    반응형
    Summary함수

    연속형 :
    - 최솟값, 1사분위수, 중간값, 평균, 3사분위수, 최댓값
    범주형 :
    - 범주, 범주별 데이터 개수가 콜론으로 구분돼 표시

    결측치 대치법

    단순 대치법 :
    - 완전 응답 개체분석
    - 평균 대치법
    - 단순확률 대치법

    * 종류, 특징 읽어봐야 함

    다중 대치법 :
    - 추정량 표준오차의 과소추정
    - 계산의 난해성 문제

    이상값

    - 평균-3*표준편차, 평균+3*표준편차 밖의 값
    - Q1 = IQR*1.5, Q3 + IQR*1.5 밖의 값
    - IQR(사분위수범위) = Q3-Q1
    ㄴ> 데이터를 쭉 늘어놓았을 때 중간에 있는 값을 IQR이라고 함. Q3은 75% 위치, Q1은 25%위치
    ㄴ> 확률분포 또는 자료의 가운데 50%가 포함되는 구간의 길이
    - 분석 대상이 될 수 있어서 무조건 삭제는 안됨
    box-plot은 평균을 보여주지 않음. 평균을 보여주는 것은 summary
    - 평균으로부터 3*표준편차를 벗엉나는 값이어도 이상치로 판단하고 제거하면 안됨.
    - 변수의 분포에서 벗어난 값
    - 분포를 왜곡할 수 있지만 실제 오류인지 통계적으로 검증 불가능하기 때문에 전문가와 상의, 판별 후 데이터 제거해야 함.


    ---------
    m <- matrix(c(1,2,3,4,5,6), ncol=2, byrow=TRUE)
    m[1,]
    의 실행결과는 ?

    byrow = TRUE이기 때문에 행 우선으로 값이 배정됨.
    1 2
    3 4
    5 6
    이렇게!
    만약에 byrow가 없다면?
    1 4
    2 5
    3 6
    으로 채워짐

    summary : 최솟값, 1사분위수, 중위수, 3사분위수, 최댓값, 평균값을 구할 수 있는 함수
    str() : 데이터 구조를 확인할 수 있는 함수
    head() : 데이터의 앞에서 일부만 확인할 수 있는 함수

    summary(iris)

    Sepal.Width의 중위값은 3.000
    Petal.Width의 변수 벡터를 추출하기 위해서는 iris$Petal.Width를 실행한다
    Sepal.Length 변수는 수치형 데이터 타입이다.
    Species는 범주형 데이터 타입이다
    Petal.Length 변수의 최댓값은 6.900이다

    그래프의 종류

    해당 그래프가 통계학적으로 유의미하진 않음.

    Boxplot

    박스플롯에서 평균은 구할 수 없음
    그룹 간 분포 차이를 비교할 수는 있으나 차이의 유의미함을 보여주진 않는다. 유의미함을 보여주기 위해서는 가설을 세우고 증명하는 과정이 필요함.
    이상치 판단에 적합하다는 특성을 가지고 있음





    728x90
    반응형

    댓글

Designed by Tistory.