ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 3과목 - 확률분포, 이산형 확률분포, 연속형 확률분포, 통계적 추론
    S T U D Y/DataBase 2023. 1. 28. 18:08
    728x90
    반응형
    분포

    일정한 범위 안에 흩어져 퍼져 있는 정도

    확률변수

    random variale
    확률 현상에 기인해서 결과값이 확률적으로 정해지는 변수
    확률현상 : 어떤 결과들이 나올지 알지만, 가능한 결과 값 중 어떤 결과가 나올지 모르는 현상

    확률분포

    어떤 확률변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시
    (예시) 동전을 2번 던질 때 앞면이 나온 횟수
    앞면횟수 0 1 2 합
    확률 1/4 1/2 1/4 1

    이산형확률분포

    Discrete(별개의), 확률변수가 몇 개의 한정된 가능한 값을 가지는 분포
    각 사건은 서로 독립이어야 함
    이항분포, 베르누이분포, 기하분포, 포아송분포

    베르누이분포

    실험 결과 두 가지 중의 하나로 나오는 시행 결과를 0 또는 1로 대응시키는 확률변수X에 대해 아래 식을 만족하는 확률변수 X가 따르는 확률분포
    P(X=0) = q, P(X=1) = p, 0<=p<=1, q = 1-p
    모수가 하나이고 서로 반복되는 사건이 일어나는 실험의 반복적 실행을 확률분포로 나타낸 것
    (예시)
    동전 던져 앞면 나올 확률 p = 1/2, q= 1/2
    주사위 던져 4의 눈이 나올 확률 p = 1/6, q = 5/6
    주사위 던져 4, 5의 눈이 나올 확률 p = 1/3, q=2/3

    이항분포

    서로 독립된 베르누이 시행을 n회 반복할 때 성공한 횟수를 x라고 하면, 성공한 x의 확률분포
    확률변수 K가 n, p 두 개의 모수를 갖으며, K~B(n, p)로 표기
    n=1일 때 이항분포가 베르누이 분포
    이항분포의 기댓값 : E(x) = np (여기서 p는 성공할 확률)
    이항분포의 분산 : V(x) = np(1-p)
    (예시)
    동전을 50번 던져서 앞면이 나올 경우 n=50, p = 1/2
    주사위 10번 던져서 나오는 눈이 5일 경우? n=50, p= 1/6
    타율 3할인 타자가 100번 타석에 들어서면 안타를 얼마나 칠 것인가? n=100, p = 0.3

    기하분포

    베르누이 시행에서 처음 성공까지 시도한 횟수 X의 분포. 지지집합 (x) = {1, 2, 3 ... }
    베르누이 시행에서 처음 성공할 때까지 실패한 횟수 Y=X-1의 분포, 지지집합(x) = {0, 1, 2 ... }
    - 성공확률 p인 베르누이 시행에 대해, x번 시행 후 첫 번째 성공을 얻을 확률, X~G(p)로 표기
    - P(X=x) = (1-p)의 x-1승 * p ( x=1, 2, 3 ...)
    - 실패 횟수에 대해서는 P(Y=x) = (1-p) x승 * p (x=0, 1, 2 ...)
    (예시)
    A야구선수의 홈런 확률이 5%인데, 이 선수가 x번째 타석에서 홈런을 칠 확률분포
    x 1 2 3 4 5          6
    확률 0.05 0.0475 0.0451 0.0428 0.0407   0.0387
    (1-0.05) 1-1 승 * 0.05
    = > 0.95의 0승이니까 1 * 0.05
    = 0.05가 됨

    포아송분포

    단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지 표현하는 분포
    특정 기간동안 사건 발생의 확률을 구할 때 쓰임
    X = pois(np)
    람다 : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값

    (예시)
    어느 AS센터에 1시간당 평균 120건의 전화가 오는데 이 때 1분동안 걸려오는 전화 요청이 4건 이하일 확률
    어느 가게에 1시간당 평균 8명의 손님이 온다. 이 때, 1시간 동안 손님이 10명 올 확률
    일주일간 특정 지역 내에서 일어나는 교통사고의 회수
    보험회사에 가입된 20만명 가운데 심장병으로 1년동안 5명 이상 사망할 확률
    확률은 x=람다에서 최대이며, x가 커질수록 0에 접근함



    연속형확률분포

    Continuous, 확률변수의 가능한 값이 사실상 셀 수 없을 때
    정규분포, 지수분포, 연속균일분포, 카이제곱분포, F분포 등

    t분포

    모집단이 정규분포
    모집단의 분산/표준편차 모르고 표본의 크기가 작을 때

    z분포

    모집단이 정규분포
    모집단의 분산/표준편차 알고있음
    검정할모수가 평균이면
    표준화 후 사용
    값-평균/표준편차로 표준화함

    F분포

    모집단이 정규분포
    모집단의 분산/표준편차 알고있음
    검정할 모수가 분산
    집단의 수가 2개일 때 사용

    x2분포(카이제곱분포)

    모집단이 정규분포
    모집단의 분산/표준편차 알고있음
    검정할 모수가 분산임
    집단의 수가 1개일 때 사용

    정규분포

    가우스분포라고도 함
    수집된 자료의 분포를 근사할 때 자주 사용
    평균과 표준편차에 대해 모양이 결정됨 N(평균, 표준편차 제곱)
    평균0, 표준편차/분산 1인 정규분포 , N(0, 1)을 표준정규분포 또는 z분포라고 함

    확률밀도함수(Probabiility Density Function, PDF)

    특정 구간에 속할 확률을 계산하기 위한 함수
    f(x)와 구간 [a, b]에 대해 확률변수 X가 구간에 포함될 확률 P(a<X<b)
    확률밀도함수는 x에 대해 f(x) >= 0 만족

    3시그마 규칙

    68%의 값들이 평균에서 양쪽으로 1 표준편차 범위에 존재
    95%의 값들이 평균에서 양쪽으로 2 표준편차 범위에 존재
    거의 모든 값들(99.7%)이 평균에서 양쪽으로 3표준편차 범위에 존재

    정규분포의 당위성

    이항분포의 근사

    시행횟수 N이 커질 때, 이항분포 B(N, p)는 평균 Np, 분산 Npq인 정규분포와 N(Np, Npq)와 거의 같아진다
    (예시) 주사위 던져서 4가 나오는 횟수의 이항분포 vs 정규분포
    평균이 Np, 분산이 Npq인 정규분포와 거의 같아짐.
    N=600, p= 1/6, q= 5/6일 때 N( 600* 1/6 , 600 * 1/6 * 5/6) = N(100, 83.3)

    중심극한정리

    표본의 크기가 N인 확률표본의 표본평균은 N이 충분히 크면 근사적으로 정규분포를 따르게 된다
    모집단의 분포와 상관없이 표본의 크기가 30이상이 되면 N이 커지면서 표본평균의 분포가 정규분포에 근사해짐
    오차의법칙 : 오차 = x-평균
    MLE(Maximum Likehood Estimator) : 실제 값일 가능성이 가장 높은 값
    실제 값의 MLE가 측정값의 평균이라면, 오차는 정규분포를 따른다

    균등분포
    이산균등분포

    확률함수가 정의된 모든 곳에서 값이 일정한 분포
    (예시) 주사위던지기

    연속균등분포

    분포가 특정 범위 내에서 균등하게 나타나 있을 경우
    두 개의 매개변수 a, b를 받으면서 [a, b] 범위에서 균등한 확률을 가짐
    뮤(a, b)로 나타내며 뮤(0, 1)인 경우 표준연속균등분포라고 함

    지수분포

    사건이 서로 독립적일 때 다음 사건이 일어날 때 까지 대기시간은 지수분포를 따름
    그래프에서 x축이 대기시간

    t분포

    표본을 많이 뽑지 못하는 경우에 사용함
    예측범위가 넓은 분포를 사용함
    표본의 수가 30개 미만일 때 사용하고 신뢰구간, 가설검정에 사용

    카이제곱분포

    분산의 특징을 확률분포로 만든 것
    카이는 평균 0, 분산1인 표준정규분포를 의미함
    신뢰구간, 가설검정에 사용하고, x축 좌표를 카이제곱값이라고 부름
    0 이상의 값만 가질 수 있고 오른쪽 꼬리가 긴 비대칭 모양
    표본 수가 많아지면 옆으로 넓적한 정규분포 형태가 됨
    카이제곱분포의 특징이 곧 분산(치우침정도)의 특징
    모수검정, 비모수검정 다 존재함
    모수검정일 때는 분산에 관한 것임(한 집단의 모분산 검정)
    비모수 검정일 때는 범주형 변수의 적합도, 동질성, 독립성을 검정함

    F분포

    두 집단의 분산을 다룸
    두 집단의 분산 크기가 서로 같은지 다른지 비교할 때 쓰임

    통계적 추론의 분류

    모수적추론

    모집단에 특정 분포를 가정하고 모수에 대해  추론

    비모수적 추론

    모집단에 대해 특정 분포 가정을 하지 않음

    표준편차

    한 표본에서 전체 개체가 가지는 값들의 차이가 얼마나 큰지 나타냄

    표준오차

    표본 집단의 평균값이 실제 모집단의 평균값과 얼마나 차이가 있는지 나타냄
    오차(추정값-참값)
    모집단에서 샘플을 무한정 뽑아서 샘플마다 평균을 구했을 때 평균들의 표준편차를 표준오차라고 함
    표본평균이 모평균과 얼마나 떨어져 있는지를 나타냄

    표본오차

    표본을 샘플링할 때 모집단을 대표할 수 있는 전형적인 구성요소를 선택하지 못함으로써 발생하는 오차

    오차한계

    추정할 때 모평균 추정구간의 중심으로부터 최대한 허용할 최대허용오차
    추정 문제에서 표본오차 구하라는 것은 오차한계 구하라는 것과 같음
    임계값 : 표준정규분포에서는 z값, t분포에서는 t값, 카이제곱분포에서는 카이제곱값
    표본오차 = 오차한계 = 임계값 * 표준편차 / 루트 n


    728x90
    반응형

    댓글

Designed by Tistory.