ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ADsP 데이터분석준전문가 - 데이터 마이닝, 데이터 분석 순서, 분류분석 종류
    S T U D Y/DataBase 2023. 2. 5. 16:15
    728x90
    반응형
    데이터 마이닝

    모든 사용가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙을 발견하고 실제 비즈니스 의사결정 등에 유용한 정보로 활용하는 일련의 작업

    데이터 마이닝 5단계

    1. 목적정의 : 데이터 마이닝 도입 목적을 명확히 함
    2. 데이터 준비 : 데이터 정제(Cleaning)을 통해 데이터의 품질 확보 포함, 필요시 데이터 양 충분히 확보
    3. 데이터 가공 : 목적변수 정의, 필요 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있게 가공/준비 단계
    4. 데이터 마이닝 기법 적용 : 모델을 목적에 맞게 선택 후 소프트웨어 사용하는데 필요한 값 지정
    5. 검증

    데이터 마이닝 기법

    분류
    기존의 분류, 정의된 집합에 배정

    추정
    알려지지 않은 결과의 값을 추정

    연관분석(Association Analysis)
    '같이 팔리는 물건' 과 같이 아이템의 연관성을 파악하는 분석
    카탈로그 배열 및 교차판매, 공격적 판촉행사 등의 마케팅 계획

    예측
    미래에 대한 것을 예측, 추정하는 것을 제외하면 분류나 추정과 동일함

    군집
    미리 정의된 기준이나 예시에 의해서가 아닌 레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 됨

    기술
    데이터가 가진 특징 및 의미를 단순하게 설명하는 것


    분류분석의 종류

    로지스틱 회귀분석

    독립변수는 연속형, 종속변수(=반응변수)가 범주형일 경우 적용되는 회귀분석 모형
    종속변수가 성공 또는 실패인 이항변수(0, 1) 로 되어있을 때 종속변수와 독립변수와 관계식을 이용해 두 집단 또는 그 이상의 집단을 분류하고자 할 때 사용됨
    x값에 따른 y값의 변화량 문제가 아님
    회귀계수 해석시 문제가 생김
    1. probability : 0~1사이의 값
    2. odds : 로지스틱의 회귀계수, 확률에 대해 0~무한 으로 변환한 값, 성공률/실패율, 1.0보다 크면 성공이 일어날 가능성이 높고 1.0보다 작으면 실패할 가능성이 높음(성공률/1-성공률)
    3. log odds(=logit) :  선형화, 값의 범위를 전체 실수범위(-무한 ~ +무한)
    4. sigmoid : 비선형 값을 얻기 위해 사용, logit값을 연속형 0~1 사이의 값으로 바꾸는 함수.
    회귀 식에 대한 해석 방법이 선형회귀와 다르다는 것을 기억하기

    로지스틱 회귀분석 해석

    승산비(odds ratio)
    관심있는 사건이 발생할 상대 비율, x=1일 때 y=1이 되는 상대적 비율
    odds_a/odds_b = exp(coef) = exp(5.140336) = 170.7731385 ...
    로지스틱 회귀에서 exp(x1)에서 x1은 회귀계수
    나머지 변수가 주어질 때 x1에서 한 단위 증가할 때 마다 성공(Y=1)의 odds가 몇 배 증가하는지를 나타냄

    일반선형회귀분석과 로지스틱회귀분석의 차이

    *일반선형회귀분석
    종속변수 : 연속형변수
    모형탐색방법 : 최소자승법(LSM, 최소제곱법)
    모형검정 : F-test, t-test

    *로지스틱회귀분석
    종속변수 : 이산형(범주형) 변수
    모형탐색방법 : 최대우도법(MLE), 가중최소자승법
    모형검정 : x2 test

    728x90
    반응형

    댓글

Designed by Tistory.