-
adsp 3과목 - 데이터 분석S T U D Y/DataBase 2023. 1. 17. 19:08728x90반응형
Summary함수
연속형 :
- 최솟값, 1사분위수, 중간값, 평균, 3사분위수, 최댓값
범주형 :
- 범주, 범주별 데이터 개수가 콜론으로 구분돼 표시결측치 대치법
단순 대치법 :
- 완전 응답 개체분석
- 평균 대치법
- 단순확률 대치법
* 종류, 특징 읽어봐야 함
다중 대치법 :
- 추정량 표준오차의 과소추정
- 계산의 난해성 문제이상값
- 평균-3*표준편차, 평균+3*표준편차 밖의 값
- Q1 = IQR*1.5, Q3 + IQR*1.5 밖의 값
- IQR(사분위수범위) = Q3-Q1
ㄴ> 데이터를 쭉 늘어놓았을 때 중간에 있는 값을 IQR이라고 함. Q3은 75% 위치, Q1은 25%위치
ㄴ> 확률분포 또는 자료의 가운데 50%가 포함되는 구간의 길이
- 분석 대상이 될 수 있어서 무조건 삭제는 안됨
box-plot은 평균을 보여주지 않음. 평균을 보여주는 것은 summary
- 평균으로부터 3*표준편차를 벗엉나는 값이어도 이상치로 판단하고 제거하면 안됨.
- 변수의 분포에서 벗어난 값
- 분포를 왜곡할 수 있지만 실제 오류인지 통계적으로 검증 불가능하기 때문에 전문가와 상의, 판별 후 데이터 제거해야 함.
---------
m <- matrix(c(1,2,3,4,5,6), ncol=2, byrow=TRUE)
m[1,]
의 실행결과는 ?
byrow = TRUE이기 때문에 행 우선으로 값이 배정됨.
1 2
3 4
5 6
이렇게!
만약에 byrow가 없다면?
1 4
2 5
3 6
으로 채워짐
summary : 최솟값, 1사분위수, 중위수, 3사분위수, 최댓값, 평균값을 구할 수 있는 함수
str() : 데이터 구조를 확인할 수 있는 함수
head() : 데이터의 앞에서 일부만 확인할 수 있는 함수
summary(iris)Sepal.Width의 중위값은 3.000
Petal.Width의 변수 벡터를 추출하기 위해서는 iris$Petal.Width를 실행한다
Sepal.Length 변수는 수치형 데이터 타입이다.
Species는 범주형 데이터 타입이다
Petal.Length 변수의 최댓값은 6.900이다
그래프의 종류해당 그래프가 통계학적으로 유의미하진 않음.
Boxplot박스플롯에서 평균은 구할 수 없음
그룹 간 분포 차이를 비교할 수는 있으나 차이의 유의미함을 보여주진 않는다. 유의미함을 보여주기 위해서는 가설을 세우고 증명하는 과정이 필요함.
이상치 판단에 적합하다는 특성을 가지고 있음728x90반응형'S T U D Y > DataBase' 카테고리의 다른 글
Adsp 데이터분석준전문가 3과목 - 벡터 생성, 연산, 인덱싱, 벡터 결과값 예시 (0) 2023.01.25 ADsP - 확률분포 (0) 2023.01.18 ADsP 데이터 분석 - 통계분석 (0) 2023.01.17 Adsp - 데이터의 정의, 데이터의 유형, 암묵지와 형식지, DIKW, 데이터베이스, DBMS, 스키마와 인스턴스 (0) 2023.01.14 [Sybase] 싸이베이스(Sybase)와 오라클(Oracle)의 차이 (0) 2021.02.01