ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 3과목 - 집중화 경향, 통계 기본 용어, 사건의 종류
    S T U D Y/DataBase 2023. 1. 28. 13:51
    728x90
    반응형

    평균 (mean)

    값들의 무게 중심이 어디인지 나타내는 값. 산술 평균
    양 꼬리값의 크기가 변할 때 영향을 크게 받음

    중앙값(median)

    자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값
    양 꼬리 값의 크기가 변하더라도 영향을 거의 받지 않음

    최빈값(mode)

    어떤 값이 가장 많이 관찰되는지 나타낸 값

    Negaive-SKewed
    Mean < Median < Mode
    Positive SKewed
    Mean > Median > Mode

    데이터의 퍼짐 정도 측정

    산포도

    자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값
    산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음. 변동성이 커짐.
    산포도가 작으면 변량들이 평균 주위에 밀집 되어있고, 변동성이 작아짐.
    범위, 사분위수 범위, 분산, 표준편차, 절대편차, 변동계수

    편차

    어떤 자료의 변량에서 평균을 뺀 값을 편차라고 함 (편차=변량-평균)
    편차의 총합은 항상 0
    편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어져 있음

    분산

    편차의 제곱의 합을 n-1로 나눈 것
    데이터 집합이 얼마나 퍼져있는지 알아볼 수 있는 수치
    평균이 같아도 분산은 다를 수 있음

    표준편차

    자료의 산포도를 나타내는 수치
    분산의 양의 제곱근
    평균으로부터 각 데이터 관찰 값까지의 평균거리

    변동계수(CV)

    단위가 다른 두 그룹 또는 단위는 같지만 평균차이가 클 때 산포 비교에 사용
    (예시)
    A학생이 평균 3시간 공부하고 표준편차는 0.4, B학생은 평균 6시간 공부하고 표준편차 0.9였으면 어떤 학생이 꾸준하게 공부했을까?
    CV = 표준편차/평균
    A학생의 CV = 0.4/3 = 0.133
    B학생의 CV = 0.9/6 = 0.15
    변동계수가 작은 A가 더 꾸준히 공부함.
    관측되는 자료가 모두 양수일 때 사용

    범위(Range)

    최소값과 최대값의 차이
    데이터가 [1, 3, 5, 7, 10]인 경우 범위는 9

    통계 기본 용어

    표본점

    어떤 행위를 했을 때 나올 수 있는 값
    주사위 굴리는 행위를 했으면 1, 2, 3, 4, 5, 6 중에 하나

    표본공간

    모든 표본점의 집합
    주사위 굴리는 행위에 대한 표본공간 S = {1, 2, 3, 4, 5, 6}

    사건

    표본점의 특정한 집합
    주사위를 한 번 굴렸을 때 홀수가 나오는 사건을 A라고 하면 A={1, 3, 5}

    확률

    사건이 일어날 수 있는 가능성을 수로 나타낸 것
    어떤 사건을 A라고 했을 때, A가 발생할 확률은 P(A)와 같이 표기함
    확률 = 사건 / 표본공간
    확률 값 : 0 <= P(A) <= 1

    사건의 종류

    독립사건

    A의 발생이 B가 발생할 확률을 바꾸지 않는 사건
    두 사건 A, B가 독립이면 P(A|B) = P(B), P(A|B) = P(A), P(A교집합B) = P(A)*P(B)
    (예시) 주사위 던져서 나오는 눈의 값과 동전을 던져 나오는 앞/뒤 사건
    (예시) 서로 다른 사람이 총을 쏘아 과녁에 명중할 사건
    (예시)
    P(A)= 주사위 던져서 홀수가 나올 사건
    P(B) = 주사위 던져서 4 초과하는 수가 나올 사건
    P(A) = 3/6 = 1/2
    P(B) = 2/6 = 1/3
    P(A)*P(B) = 1/2 * 1/3 = 1/6

    배반사건

    교집합이 공집합인 사건
    한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
    P(A교집합B) = 0, P(A합집합B) = P(A) + P(B)
    (예) 동전 하나를 던져 앞면 나오는 사건과 뒷면 나오는 사건

    종속사건

    두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 주는 사건
    (예) 음주와 사고 사건, P(A합집합B) = P(A|B) * P(B)


    조건부확률

    사건 B가 발생했다는 조건 아래서 사건 A가 발생할 조건부 확률
    P(A|B) = P(A교집합B) / P(B), 단 P(B) > 0
    두 사건 A, B가 독립사건인 경우 P(B|A) = P(B), P(A|B) = P(A), P(A교집합B) = P(A)P(B)
    (예시)
    사고 무사고
    음주자 0.07 0.23
    비음주자 0.06 0.64
    P(음주|사고) 는 얼마인가?
    P(음주 교집합 사고) / P(사고) = 0.07/0.13 = 0.54


    728x90
    반응형

    댓글

Designed by Tistory.