ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 - 추정량, 점추정, 구간추정, 가설검정
    S T U D Y/DataBase 2023. 1. 30. 22:05
    728x90
    반응형
    추정

    통계량을 이용해 모집단의 모수를 구체적으로 추측하는 과정

    추정량

    모수를 추정하기 위한 관찰 가능한 표본의 식 또는 표본의 함수

    추정값

    표본의 식 또는 함수에 실제 관찰치를 대입해서 계산한 값

    좋은 추정량 판단 기준

    일치성 : 표본의 크기가 커짐에 따라 표본 오차가 작아져야 함
    비편향성, 불편성 : 편향 = 추정량의 기댓값 - 실제값(=모수의 값)
    추정량의 기댓값이 모수의 값과 같아야 함
    효율성 : 추정량의 분산이 될 수 있는 대로 작아야 함(최소분산 추정량)
    MSE(Mean Square Error)가 작아야 함

    점추정

    통계량 하나를 구하고 그것을 가지고 모수를 측정하는 방법
    모수가 특정할 값일 것이라고 추정하는 것
    (예시)
    A과목 수강 전체 학생 중 50명 뽑아서 조사한 결과 기말 점수가 80점 이었다면, 50명 뿐 아니라 나머지 A과목을 수강한 학생들의 점수도 80점 정도로 추정하는 것

    점추정량 구하는 방법

    적률법 : 표본의 기댓값을 통해 모수를 측정하는 방법
    최대가능도추정법(최대우도법) : 함수를 미분해서 기울기가 0인 위치에 존재하는 MLE(Maximun likelihood estimator)를 찾는 방법
    최소제곱법 : 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하는 방법

    구간추정

    점추정의 정확성을 보완하는 방법
    통계량 제시하는 것은 같지만 신뢰구간을 만들어서 추정함

    신뢰구간

    모수가 포함되리라 기대하는 범위

    신뢰수준

    모수값이 정해져 있을 때 다수 신뢰구간 중 모수값을 포함하는 신뢰구간이 존재할 확률
    (예시)
    정치인 지지율 조사에서 A후보는 40%, B후보는 25%의 지지율을 얻었음. 신뢰수준 95%에서 표본오차는 95%포인트이다
    => 동일 형태의 여론조사를 100번 실시했을 때 95번은 A후보가 40%에서 +-3.5인 36.9~43.1, B후보는 25%에서 +-3.1인 21.9~28.1 ㅏ이의 지지율을 얻을 것으로 기대된다는 의미

    신뢰구간

    99% 신뢰수준에 대한 신뢰구간이 95% 신뢰수준에 대한 신뢰구간보다 길다
    표본의 크기가 커지면 신뢰구간의 길이는 줄어든다
    신뢰수준 99%의 의미 = n번 반복 추출하여 산정하는 신뢰구간들 중에서 평균적으로 95%는 모수를 포함하고 있을 것

    가설검정

    모집단에 대해 가설 설정 후, 표본관찰을 통해 그 가설의 채택여부를 결정하는 통계적 추론 방법

    가설검정의 절차

    가설설정(귀무가설, 대립가설) -> 유의수준 설정(보편적으로 0.05정도, 제1종 오류의 최대 허용 한계) -> 검정통계량 산출(검정통계량으로 제1종 오류 발생할 확률인 p-value를 구함) -> 기각/채택 판단( p-value < 유의수준 일때 귀무가설 기각)

    귀무가설 (H0)

    가설검정의 대상이 되는 가설
    연구자가 부정하고자 하는 가설
    기각하고 싶은 것
    알고 있는 것과 같음. 변화, 영향력, 연관성, 효과없음에 대한 가설

    대립가설 (H1)

    연구를 통해 입증/증명되길 기대하는 예상이나 주장
    귀무가설이 기각되면 채택되는 가설
    알고 있는 것과 다름. 변화, 영향력, 연관성, 효과있음에 대한 가설
    (예시)
    귀무가설 : 남학생과 여학생의 평균은 같다 (보통 같다가 나오면 귀무가설이고)
    대립가설 : 남학생과 여학생의 평균은 다르다 (다르다, 크다, 작다가 나오면 대립가설임)

    제1종오류

    귀무가설이 참인데 기각되는 오류 (1이니까 한글자로 귀무가설이 참인데! 라고 외우기)
    (예시) 생산자 입장에서 정상제품을 불량품으로 판정하는 생산자 위험 오류

    제2종오류

    귀무가설이 거짓인데 기각되는 오류(2이니까 두글자로 귀무가설이 거짓인데! 라고 외우기)
    (예시) 소비자 입장에서 불량품인데 정상품으로 판정하는 소비자 위험 오류
    귀 참 귀 채택 => 옳은 결정(1-알파)
    귀 참 귀 기각 => 제1종오류(알파)
    귀 거짓 귀 채택 => 제2종오류(베타)
    귀 거짓 귀 기각 => 옳은 결정(1-베타)
    신뢰수준(1-알파) : 1종 오류를 범하지 않을 확률
    검정력(1-베타) : 2종 오류를 범하지 않을 확률
    두 가지 오류가 작을 수록 바람직함
    알파와 베타, (1-알파)와 (1-베타)는 각각 trade off 관계
    표본 크기 증가시키면 표본분산이 작아져서 알파, 베타 발생 확률이 작아지지만 조사비용 증가
    제1종 오류를 범할 확률의 최대 허용치를 특정값(유의수준)으로 지정해 놓고 제 2종 오류 확률을 가장 작게 해주는 검정 방법 사용

    기각역

    귀무가설을 기각하고 대립가설(=연구가설)을 채택하게 되는 영역
    귀무가설이 옳다는 전제하에 구한 검정통계량의 분포에서 확률이 유의수준 a인 부분

    유의수준

    귀무가설이 참인데 기각시키는 확률(제1오류발생확률)의 최대 허용한계
    가능성이 '크다' 또는 '작다'의 판단기준
    유의수준 0.05(5%) : 100번 실험에서 제 1종 오류를 범하는 최대 허용한계가 5번
    유의수준 = 1 - 신뢰수준, 유의수준 = 기각역의 합
    양측검정을 알아두면 좋은데 기각역은 알파/2 임
    신뢰구간에서 귀무가설을 채택하고, 양측검정 그래프의 세로축은 채택역임

    유의확률

    0<=p-value<=1
    자유도를 고려한 검정통계량에 관한 확률
    귀무가설의 신뢰구간을 벗어나는 확률
    귀무가설의 극단적인 표본 값이 나올 확률
    판정이 잘못되었을 확률
    제1종 오류를 범할 확률
    귀무가설을 지지하는 정도
    귀무가설이 사실일 때 기각하는 1종 오류시, 우리가 내린 판정이 잘못되었을 때 확률
    p-value 가 작을 수록 그 정도가 약하고, p-value < a 일 때, 귀무가설 기각하고 대립가설 채택
    p-value가 0.05 : 귀무가설을 기각했을 때 가격 결정이 잘못될 확률이 5%


    728x90
    반응형

    댓글

Designed by Tistory.