ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터 분석 - 통계분석
    S T U D Y/DataBase 2023. 1. 17. 19:59
    728x90
    반응형

    통계학개론

    모집단 :
    - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상(데이터 전체 집합)
    - (예시) 대통령 후보의 지지율 - 유권자
    모수 :
    - 모집단의 특성을 나타내는 수치들
    - 모집단의 평균, 분산 같은 수치들을 모수라고 함.
    표본 :
    - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling)한 것
    - 추출(sampling)한 표본으로 모집단의 특성을 추론함(오차 발생)
    - (예시) 각종 여론조사에 참여한 유권자
    통계량 :
    - 표본의 특성을 나타내는 수치들
    - 표본의 평균, 분산 같은 수치를 통계량이라고 함.

    표본추출

    자주 출제됨

    단순 무작위 추출 :
    - 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
    - 모집단의 개체 수 N, 표본 수 n일 때 개별 개체가 선택될 확률은 n/N 임

    계통추출 :
    - 모집단 개체에 1, 2, ... N 이라는 일련번호를 부여한 후, 첫번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택
    - (예시) 1~100 번호 부여 후, 10개 선택한다면 [1, 11, 21, 31, ..., 91] 선택

    층화추출 :
    - 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고 각 집단 내에서 원하는 크기의 표본을 단순 무작위 추출법으로 추출합니다.
    - 층 : 성별, 나이대, 지역 등 차이가 존재하는 그룹
    군집추출 :
    - 모집단을 차이가 없는 여러개의 집단으로 나눕니다.
    - (예시) 경상대학 내 경영학과, 경제학과
    - 이들 집단 중 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택합니다.

    척도의 종류

    명목척도 :
    - 측정 대상의 특성을 분류하거나 확인하기 위한 목적
    - 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함
    - (예시) 성별, 혈액형, 출생지

    서열(순위)척도 :
    - 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교 불가능
    - 항목들 간에 서열이나 순위가 존재
    - (예시) 금, 은, 동메달, 선호도, 만족도 등

    등간척도(구간척도) :
    - 순위를 부여하되 순위 사이의 간격이 동일해 양적인 비교 가능
    - 절대 0점이 존재하지 않음.
    - (예시) 온도계수치, 물가지수

    비율척도 :
    - 절대 0점이 존재해 측정값 사이의 비율 계산이 가능한 척도
    - (예시) 몸무게, 나이, 형제수, 직장까지 거리

    *참고
    절대0점 :
    - 없음을 의미함(무)
    - 온도의 0은 상대 0점으로 없음이 아니라 영상, 영하의 중간 지점을 나타냄

    집중화 경향 측정

    평균(mean) :
    - 값 들의 무게 중심이 어디인지를 나타내는 값. 산술평균
    중앙값(median) :
    - 자료를 크기 순서대로 배열했을 때, 중앙에 위치하는 값
    최빈값(mode) :
    - 어떤 값이 가장 많이 관찰되는지 나타낸 값

    평균은 이상치에 영향을 많이 받지만, 중앙값은 이상치에 영향을 많이 받지 않는다.


    데이터의 퍼짐 정도 측정

    산포도 :
    - 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값
    - 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음. 변동성이 커짐
    - 산포도가 작으면 변량들이 평균 주위에 밀집, 변동성이 작아짐
    - 범위, 사분위수 범위, 분산, 표준편차, 절대편차, 변동계수
    편차 :
    - 어떤 자료의 변량에서 평균을 뺀 값(편차=변량-평균)
    - 편차의 총합은 항상0, 편차의 절대값이 클수록 그 변량은 평균에서 멀리 떨어져있고, 편차의 절댓값이 작을수록 평균에 가까이 있음
    분산 :
    - 편차의 제곱의 합을 n-1로 나눈 것
    - 데이터 집합이 얼마나 퍼져 있는지 알아볼 수 있는 수치
    - 평균이 같아도 분산은 다를 수 있음
    표준편차 :
    - 자료의 산포도를 나타내는 수치, 분산의 양의 제곱근
    - 평균으로부터 각 데이터의 관찰 값까지의 평균거리

    통계기본용어

    표본점 :
    - 어떤 행위를 했을 때 나올 수 있는 값
    - (예시) 주사위 굴리는 행위를 했다면 1, 2, 3, 4, 5, 6 중 하나
    표본공간 :
    - 모든 표본점의 집합    
    - 주사위 굴리는 행위에 대한 표본공간 S = {1, 2, 3, 4, 5, 6}
    사건 :
    - 표본점의 특정한 집합
    - 주사위를 한 번 굴렸을 때 홀수가 나오는 사건을 A라고 하면 A = {1, 3, 5}
    확률 :
    - 사건이 일어날 수 있는 가능성을 수로 나타낸 것
    - 어떤 사건을 A라고 했을 때, A가 발생할 확률은 P(A)와 같이 표기함.
    - 확률 = 사건 / 표본공간
    - 확률 값 : 0 <= P(A) <= 1

    사건의종류

    독립사건 :
    - A의 발생이 B가 발생할 확률을 바꾸지 않는 사건
    - 두 사건 A, B가 독립이면 P(B|A) = P(B), P(A|B) = P(A), P(A교집합B) = P(A) * P(B) 성립
    - (예시) 주사위 던져서 나오는 눈의 값과 동전을 던져 나오는 앞/뒤 사건
    - (예시) 서로 다른 사람이 총을 쏘아 과녁에 명중할 사건

    배반사건 :
    - 교집합이 공집합인 사건
    - 한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
    - P(A교집합B) = 0, P(A합집합B)= P(A)+P(B)
    - (예시) 동전 하나를 던져 앞면 나오는 사건, 뒷면 나오는 사건

    종속사건 :
    - 두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 주는 사건
    - (예시) 음주와 사고 사건. P(A교집합B) = P(A|B) * P(B)

    조건부확률
    사건 B가 발생했다는 조건 아래서 사건 A가 발생할 조건부 확률
    P(A|B) = P(A교집합B) / P(B), 단 P(B) > 0
    두 사건 A, B가 독립사건인 경우 : P(B|A) = P(B), P(A|B) = P(A), P(A교집합B) = P(A)P(B)

    P(음주|사고)
    = P(음주교집합사고) / P(사고)
    = 0.07 / 0.13 = 0.54

    P(케찹|겨자)
    = P(겨자교집합케찹) / P(겨자)
    = 0.65/0.7

    확률분포

    분포 :
    - 일정한 범위 안에 흩어져 퍼져 있는 정도
    확률변수 :
    - random variable, 확률 현상에 기인해 결과값이 확률적으로 정해지는 변수
    - 확률 현상 : 어떤 결과들이 나올지 알지만, 가능한 결과들 중 어떤 결과가 나올지 모르는 현상

    확률분포 :
    - 어떤 확률변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시하는 것
    - 이산형 확률분포 : 확률변수가 몇 개의 한정된 가능한 값을 가지는 분포. 각 사건은 독립이어야 함.
         (예시) 이항분포, 베르누이분포, 기하분포, 포아송분포 등
    - 연속형 확률분포 : 확률변수의 가능한 값이 무한 개이며 사실상 셀 수 없을 때
        (예시) 정규분포, 지수분포, 연속균일분포, 카이제곱분포, F분포 등




    728x90
    반응형

    댓글

Designed by Tistory.