-
ADsP 데이터분석준전문가 3과목 - 결측치, 이상치S T U D Y/DataBase 2023. 1. 27. 22:22728x90반응형
단순대치법
1번 연산
완전히 응답한 개체분석
- 불완전한 자료는 모두 무시
- 부분적으로 관측된 자료를 무시하기 때문에 효율성 상실, 통계적 추론의 타당성 문제가 존재함평균대치법
- 관측 또는 실험을 통해 얻어진 데이터의 평균으로 결측값 대치
- 비조건부 평균 대치법 : 관측 데이터의 평균값으로 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치법단순확률 대치법
- 평균대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨
단순대치법의 이름정도만 기억다중대치법
단순대치법을 여러번 수행해서 m개의 가상적 완전 자료를 만듦
추정량 표준오차의 과소추정 또는 계산의 난해성 문제를 가지고 있음결측치 인식, 선택, 삭제
결측치 칸이 비어있는 경우 결측치 여부는 알기 쉬움
결측치가 있는 경우 다양한 대치(imputation)방법을 사용해 완전한 자료로 만든 후 분석 진행 가능
결측치가 20% 이상인 경우에는 해당 변수 제거하고 분석해야 함is.na(x)
x의 포함된 값이 NA인지 아닌지 각각에 대해 TRUE, FALSE 값 반환
logical 은 산술연산이 되기 때문에 is.na 함수 적용 후에 sum 함수를 사용해 결측치 개수를 파악할 수 있음
sum(is.na(x))
complete.cases(x)
x가 결측치를 가지고 있지 않은 완전한 데이터인지 확인함
행 별로 결측치가 없으면 TRUE, 있으면 FALSE
완벽한케이스니? 결측치 없으니까 TRUE
완벽한케이스니? 결측치 있는데? FALSEx[!complete.cases(x), ]
인덱싱을 사용해서 결측치(NA) 행만 추출
x[complete.cases(x), ]
인덱싱을 사용해서 결측치(NA)를 포함하지 않은 행 추출
na.omit(x)
결측치(NA)가 있는 행 전체 삭제
문풀하면서 본 함수
knnImputation() : NA값을 k 최근 이웃 분류 알고리즘 사용해서 대치하는 함수. k개 주변 이웃까지의 거리 고려해서 가중 평균한 값을 대치해주는 함수
rfImpute() : 랜덤 포레스트 모형의 경우, 결측값이 있으면 에러 발생시키므로 랜덤포레스트 패키지에서 NA결측값을 대치하도록 하는 함수결측치 예시
data("airequality")
colnames(airquality) <- tolower(colnames(airquality))
r1 <- is.na(airequality$ozone)데이터들이 다 true, false 가 뒤섞여서 153행이 나옴
r2 <- sum (r1)
37 #NA값이 37개이다
table(is.na(airequaility$ozon)) #true인것과 false 인 것의 각 갯수를 세고 싶다면
FALSE TRUE
116 37
r4 <- apply(airquality, 2, function(x) { sum(is.na(x))})#열별로 NA가 몇 개씩 들어있는지 알아보는 방법
ozone solar.r wind temp month day
37 7 0 0 0 0
air_na <- airquaility[!complete.cases(airquality), ] #결측치 행만 추출해서 가져오기NA가 들어간 행들을 쭉 가져옴
air_na <- airquaility[complete.cases(airquality), ] #결측치 없는 행만 추출해서 가져오기NA 없는 행만 가져옴
r5<-na.omit(airquality) #NA가 없는 것이상값 ***
의도하지 않게 잘못 입력된 경우
분석목적에 부합되지 않아 제거해야 하는 경우
의도되지 않은 현상이지만 분석에 포함해야 하는 경우
군집분석을 이용해 다른 데이터들과 거리상 멀리 떨어진 데이터
설명변수의 관측치에 비해 종속변수의 갑이 상이한 값
통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의함(ESD)
이상값 처리에 있어서 극단값 절단 방법과 조정 방법이 있고 조정의 경우, 제거 방법에 비해 데이터 손실율이 낮아 설명력이 높아지는 장점이 있음
의도치 않게 잘못 입력된 데이터의 경우 bad data에 해당되며, 이 경우에는 데이터를 제거한 뒤 분석한다이상값 판단
ESD : 평균으로부터 3*표준편차 밖의 값
boxplot사용 : IQR*1.5밖의 값
summary()사용 : 평균, 중앙값, IQR보고 판단이상값 처리
분석값이 될 수 있어서 무조건 삭제는 안됨
728x90반응형'S T U D Y > DataBase' 카테고리의 다른 글
ADsP 데이터분석준전문가 3과목 - 집중화 경향, 통계 기본 용어, 사건의 종류 (0) 2023.01.28 ADsP 데이터분석준전문가 3과목 - 통계량, 표본추출, 척도의 종류 (0) 2023.01.27 ADsP 데이터분석준전문가 - 그래프 종류, 특징 (0) 2023.01.26 R관련 기출 문항 풀이 정리 (0) 2023.01.26 ADsP 데이터분석준전문가 - dataframe 핸들링 정의, 예시 (0) 2023.01.26