ADsP 데이터 분석 - 통계분석

S T U D Y/DataBase 2023. 1. 17. 19:59

728x90

통계학개론

모집단 :
- 잘 정의된 연구목적과 이와 연계된 명확한 연구대상(데이터 전체 집합)
- (예시) 대통령 후보의 지지율 - 유권자
모수 :
- 모집단의 특성을 나타내는 수치들
- 모집단의 평균, 분산 같은 수치들을 모수라고 함.
표본 :
- 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling)한 것
- 추출(sampling)한 표본으로 모집단의 특성을 추론함(오차 발생)
- (예시) 각종 여론조사에 참여한 유권자
통계량 :
- 표본의 특성을 나타내는 수치들
- 표본의 평균, 분산 같은 수치를 통계량이라고 함.

표본추출

자주 출제됨

단순 무작위 추출 :
- 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
- 모집단의 개체 수 N, 표본 수 n일 때 개별 개체가 선택될 확률은 n/N 임

계통추출 :
- 모집단 개체에 1, 2, ... N 이라는 일련번호를 부여한 후, 첫번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택
- (예시) 1~100 번호 부여 후, 10개 선택한다면 [1, 11, 21, 31, ..., 91] 선택

층화추출 :
- 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고 각 집단 내에서 원하는 크기의 표본을 단순 무작위 추출법으로 추출합니다.
- 층 : 성별, 나이대, 지역 등 차이가 존재하는 그룹
군집추출 :
- 모집단을 차이가 없는 여러개의 집단으로 나눕니다.
- (예시) 경상대학 내 경영학과, 경제학과
- 이들 집단 중 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택합니다.

척도의 종류

명목척도 :
- 측정 대상의 특성을 분류하거나 확인하기 위한 목적
- 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함
- (예시) 성별, 혈액형, 출생지

서열(순위)척도 :
- 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교 불가능
- 항목들 간에 서열이나 순위가 존재
- (예시) 금, 은, 동메달, 선호도, 만족도 등

등간척도(구간척도) :
- 순위를 부여하되 순위 사이의 간격이 동일해 양적인 비교 가능
- 절대 0점이 존재하지 않음.
- (예시) 온도계수치, 물가지수

비율척도 :
- 절대 0점이 존재해 측정값 사이의 비율 계산이 가능한 척도
- (예시) 몸무게, 나이, 형제수, 직장까지 거리

*참고
절대0점 :
- 없음을 의미함(무)
- 온도의 0은 상대 0점으로 없음이 아니라 영상, 영하의 중간 지점을 나타냄

집중화 경향 측정

평균(mean) :
- 값 들의 무게 중심이 어디인지를 나타내는 값. 산술평균
중앙값(median) :
- 자료를 크기 순서대로 배열했을 때, 중앙에 위치하는 값
최빈값(mode) :
- 어떤 값이 가장 많이 관찰되는지 나타낸 값

평균은 이상치에 영향을 많이 받지만, 중앙값은 이상치에 영향을 많이 받지 않는다.

데이터의 퍼짐 정도 측정

산포도 :
- 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값
- 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음. 변동성이 커짐
- 산포도가 작으면 변량들이 평균 주위에 밀집, 변동성이 작아짐
- 범위, 사분위수 범위, 분산, 표준편차, 절대편차, 변동계수
편차 :
- 어떤 자료의 변량에서 평균을 뺀 값(편차=변량-평균)
- 편차의 총합은 항상0, 편차의 절대값이 클수록 그 변량은 평균에서 멀리 떨어져있고, 편차의 절댓값이 작을수록 평균에 가까이 있음
분산 :
- 편차의 제곱의 합을 n-1로 나눈 것
- 데이터 집합이 얼마나 퍼져 있는지 알아볼 수 있는 수치
- 평균이 같아도 분산은 다를 수 있음
표준편차 :
- 자료의 산포도를 나타내는 수치, 분산의 양의 제곱근
- 평균으로부터 각 데이터의 관찰 값까지의 평균거리

통계기본용어

표본점 :
- 어떤 행위를 했을 때 나올 수 있는 값
- (예시) 주사위 굴리는 행위를 했다면 1, 2, 3, 4, 5, 6 중 하나
표본공간 :
- 모든 표본점의 집합
- 주사위 굴리는 행위에 대한 표본공간 S = {1, 2, 3, 4, 5, 6}
사건 :
- 표본점의 특정한 집합
- 주사위를 한 번 굴렸을 때 홀수가 나오는 사건을 A라고 하면 A = {1, 3, 5}
확률 :
- 사건이 일어날 수 있는 가능성을 수로 나타낸 것
- 어떤 사건을 A라고 했을 때, A가 발생할 확률은 P(A)와 같이 표기함.
- 확률 = 사건 / 표본공간
- 확률 값 : 0 <= P(A) <= 1

사건의종류

독립사건 :
- A의 발생이 B가 발생할 확률을 바꾸지 않는 사건
- 두 사건 A, B가 독립이면 P(B|A) = P(B), P(A|B) = P(A), P(A교집합B) = P(A) * P(B) 성립
- (예시) 주사위 던져서 나오는 눈의 값과 동전을 던져 나오는 앞/뒤 사건
- (예시) 서로 다른 사람이 총을 쏘아 과녁에 명중할 사건

배반사건 :
- 교집합이 공집합인 사건
- 한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
- P(A교집합B) = 0, P(A합집합B)= P(A)+P(B)
- (예시) 동전 하나를 던져 앞면 나오는 사건, 뒷면 나오는 사건

종속사건 :
- 두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 주는 사건
- (예시) 음주와 사고 사건. P(A교집합B) = P(A|B) * P(B)

조건부확률
사건 B가 발생했다는 조건 아래서 사건 A가 발생할 조건부 확률
P(A|B) = P(A교집합B) / P(B), 단 P(B) > 0
두 사건 A, B가 독립사건인 경우 : P(B|A) = P(B), P(A|B) = P(A), P(A교집합B) = P(A)P(B)

P(음주|사고)
= P(음주교집합사고) / P(사고)
= 0.07 / 0.13 = 0.54

P(케찹|겨자)
= P(겨자교집합케찹) / P(겨자)
= 0.65/0.7

확률분포

분포 :
- 일정한 범위 안에 흩어져 퍼져 있는 정도
확률변수 :
- random variable, 확률 현상에 기인해 결과값이 확률적으로 정해지는 변수
- 확률 현상 : 어떤 결과들이 나올지 알지만, 가능한 결과들 중 어떤 결과가 나올지 모르는 현상

확률분포 :
- 어떤 확률변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시하는 것
- 이산형 확률분포 : 확률변수가 몇 개의 한정된 가능한 값을 가지는 분포. 각 사건은 독립이어야 함.
(예시) 이항분포, 베르누이분포, 기하분포, 포아송분포 등
- 연속형 확률분포 : 확률변수의 가능한 값이 무한 개이며 사실상 셀 수 없을 때
(예시) 정규분포, 지수분포, 연속균일분포, 카이제곱분포, F분포 등

728x90

'S T U D Y > DataBase' 카테고리의 다른 글

Adsp 데이터분석준전문가 3과목 - 벡터 생성, 연산, 인덱싱, 벡터 결과값 예시 (0)	2023.01.25
ADsP - 확률분포 (0)	2023.01.18
adsp 3과목 - 데이터 분석 (0)	2023.01.17
Adsp - 데이터의 정의, 데이터의 유형, 암묵지와 형식지, DIKW, 데이터베이스, DBMS, 스키마와 인스턴스 (0)	2023.01.14
[Sybase] 싸이베이스(Sybase)와 오라클(Oracle)의 차이 (0)	2021.02.01

ABOUT ME

기록하며 움직이기 기록하며 움직이기

통계학개론

'S T U D Y > DataBase' 카테고리의 다른 글

티스토리툴바

ABOUT ME

통계학개론

'S T U D Y > DataBase' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바