-
ADsP 데이터분석준전문가 3과목 - 집중화 경향, 통계 기본 용어, 사건의 종류S T U D Y/DataBase 2023. 1. 28. 13:51728x90반응형
평균 (mean)
값들의 무게 중심이 어디인지 나타내는 값. 산술 평균
양 꼬리값의 크기가 변할 때 영향을 크게 받음중앙값(median)
자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값
양 꼬리 값의 크기가 변하더라도 영향을 거의 받지 않음최빈값(mode)
어떤 값이 가장 많이 관찰되는지 나타낸 값
Negaive-SKewed
Mean < Median < Mode
Positive SKewed
Mean > Median > Mode데이터의 퍼짐 정도 측정
산포도
자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값
산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음. 변동성이 커짐.
산포도가 작으면 변량들이 평균 주위에 밀집 되어있고, 변동성이 작아짐.
범위, 사분위수 범위, 분산, 표준편차, 절대편차, 변동계수편차
어떤 자료의 변량에서 평균을 뺀 값을 편차라고 함 (편차=변량-평균)
편차의 총합은 항상 0
편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어져 있음분산
편차의 제곱의 합을 n-1로 나눈 것
데이터 집합이 얼마나 퍼져있는지 알아볼 수 있는 수치
평균이 같아도 분산은 다를 수 있음표준편차
자료의 산포도를 나타내는 수치
분산의 양의 제곱근
평균으로부터 각 데이터 관찰 값까지의 평균거리변동계수(CV)
단위가 다른 두 그룹 또는 단위는 같지만 평균차이가 클 때 산포 비교에 사용
(예시)
A학생이 평균 3시간 공부하고 표준편차는 0.4, B학생은 평균 6시간 공부하고 표준편차 0.9였으면 어떤 학생이 꾸준하게 공부했을까?
CV = 표준편차/평균
A학생의 CV = 0.4/3 = 0.133
B학생의 CV = 0.9/6 = 0.15
변동계수가 작은 A가 더 꾸준히 공부함.
관측되는 자료가 모두 양수일 때 사용범위(Range)
최소값과 최대값의 차이
데이터가 [1, 3, 5, 7, 10]인 경우 범위는 9통계 기본 용어
표본점
어떤 행위를 했을 때 나올 수 있는 값
주사위 굴리는 행위를 했으면 1, 2, 3, 4, 5, 6 중에 하나표본공간
모든 표본점의 집합
주사위 굴리는 행위에 대한 표본공간 S = {1, 2, 3, 4, 5, 6}사건
표본점의 특정한 집합
주사위를 한 번 굴렸을 때 홀수가 나오는 사건을 A라고 하면 A={1, 3, 5}확률
사건이 일어날 수 있는 가능성을 수로 나타낸 것
어떤 사건을 A라고 했을 때, A가 발생할 확률은 P(A)와 같이 표기함
확률 = 사건 / 표본공간
확률 값 : 0 <= P(A) <= 1사건의 종류
독립사건
A의 발생이 B가 발생할 확률을 바꾸지 않는 사건
두 사건 A, B가 독립이면 P(A|B) = P(B), P(A|B) = P(A), P(A교집합B) = P(A)*P(B)
(예시) 주사위 던져서 나오는 눈의 값과 동전을 던져 나오는 앞/뒤 사건
(예시) 서로 다른 사람이 총을 쏘아 과녁에 명중할 사건
(예시)
P(A)= 주사위 던져서 홀수가 나올 사건
P(B) = 주사위 던져서 4 초과하는 수가 나올 사건
P(A) = 3/6 = 1/2
P(B) = 2/6 = 1/3
P(A)*P(B) = 1/2 * 1/3 = 1/6배반사건
교집합이 공집합인 사건
한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
P(A교집합B) = 0, P(A합집합B) = P(A) + P(B)
(예) 동전 하나를 던져 앞면 나오는 사건과 뒷면 나오는 사건종속사건
두 사건 A와 B에서 한 사건의 결과가 다른 사건에 영향을 주는 사건
(예) 음주와 사고 사건, P(A합집합B) = P(A|B) * P(B)조건부확률
사건 B가 발생했다는 조건 아래서 사건 A가 발생할 조건부 확률
P(A|B) = P(A교집합B) / P(B), 단 P(B) > 0
두 사건 A, B가 독립사건인 경우 P(B|A) = P(B), P(A|B) = P(A), P(A교집합B) = P(A)P(B)
(예시)
사고 무사고
음주자 0.07 0.23
비음주자 0.06 0.64
P(음주|사고) 는 얼마인가?
P(음주 교집합 사고) / P(사고) = 0.07/0.13 = 0.54728x90반응형'S T U D Y > DataBase' 카테고리의 다른 글
ADsP 데이터분석준전문가 - 추정량, 점추정, 구간추정, 가설검정 (0) 2023.01.30 ADsP 데이터분석준전문가 3과목 - 확률분포, 이산형 확률분포, 연속형 확률분포, 통계적 추론 (0) 2023.01.28 ADsP 데이터분석준전문가 3과목 - 통계량, 표본추출, 척도의 종류 (0) 2023.01.27 ADsP 데이터분석준전문가 3과목 - 결측치, 이상치 (2) 2023.01.27 ADsP 데이터분석준전문가 - 그래프 종류, 특징 (0) 2023.01.26