S T U D Y/DataBase
-
SQL파싱과 최적화S T U D Y/DataBase 2023. 8. 24. 19:58
SQL의 정의 Structrued Query Language. 구조적 질의 언어 SQL의 최적화 1. SQL파싱 - 사용자로부터 SQL을 전달 받음 -> 파서가 파싱 진행(파싱 트리 생성 -> Syntax체크 -> Semantic체크) 2. SQL최적화 - 옵티마이저가 그 역할을 맡음 - 데이터베이스 성능을 결정하는 가장 핵심적 엔진 3. 로우 소스 생성 - 옵티마이저가 선택한 실행 경로를 실제 실행 가능한 코드나 프로시저 형태로 포맷팅 함 SQL옵티마이저의 역할 사용자가 원하는 역할을 가장 효율적으로 수행할 수 있는 최적의 데이터 액세스 경로를 선택해주는 DBMS엔진 1. 사용자로부터 전달 받은 쿼리를 수행하며 나올 수 있는 실행계획을 찾아냄 2. 데이터 딕셔너리에 미리 수집해 둔 오브젝트 통계 및 시..
-
[SQLP] SQLP 조사하기, 준비하기, 기출문제 사이트S T U D Y/DataBase 2023. 3. 23. 19:45
https://youtu.be/RXQ1kZ_JHqg SQLP 기본서 맛보기 SQL - Structured Query Language, 구조적 질의 언어 SQL최적화 : DBMS 내부에서 프로시저 작성 후 컴파일해서 실행 가능한 상태로 만드는 전 과정 1. 최적화 까지의 과정 1) SQL 파싱 파싱 트리 생성(SQL문 이루는 개별 구성요소 분석해서 파싱 트리 생성) Syntax체크(문법오류 확인, 사용할 수 없는 키워드 또는 순서, 누락된 키워드 확인) Semantic체크(의미상 오류 있는지 확인, 존재하지 않는 테이블 또는 컬럼, 권한확인) 2) SQL최적화 주체 : SQL옵티마이저 사용자가 원하는 작업을 가장 효율적으로 수행할 수 있는 최적의 액세스 경로를 선택해주는 DBMS핵심 엔진 과정 : 1. 전..
-
오분류표S T U D Y/DataBase 2023. 2. 8. 19:23
Precision(정밀도) #실Sen예Pre 예측값이 True인 것에 대해 실제 값이 True인 지표 TP / ( TP + FP) Recall, Sensitivity(재현율, 민감도) 실제 값이 True인 것에 대해 예측 값이 True인 지표 TP / (TP + FN) F1 Score F1 Score는 불균형한 데이터 평가에 사용 정밀도와 재현율의 조화평균 정밀도와 재현율에 같은 가중치를 부여해 평균한 지표 F1 = 2 * ( presicion * recall) / (precision + recall) Accuracy(정확도) 불균형한 레이블 값 분포의 데이터에서는 모델의 성능이 실제로 좋지 못하더라도 정확도가 높을 수 있음 F2 Score F뒤의 숫자는 재현율에 부여하는 가중치를 주는 방식 재현율에 정..
-
ADsP 데이터분석준전문가 - 인공신경망, 모형 평가 방법S T U D Y/DataBase 2023. 2. 5. 20:40
인공신경망 모형 분류 및 예측을 할 수 있음 분석가의 주관과 경험에 따름 풀고자하는 문제 종류에 따라 활성화 함수의 종류가 달라짐 역전파 알고리즘이 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용됨 이상치 잡음에 민감하지 않음 입력, 은닉, 출력층 3개의 층으로 구성돼있음 학습 : 입력에 대한 올바른 출력이 나오도록 가중치를 조절하는 것 bias, variance : 학습 알고리즘이 갖는 두 가지 종류의 error로 trade off 관계 - bias : 지나치게 단순한 모델로 인한 에러, bias가 크면 과소적합(underfitting)야기(=네트워크가 복잡한 의사결정 경계를 만들 수 없음) - variance : 지나치게 복잡한 모델로 인한 에러, varianc..
-
ADsP 데이터분석준전문가 - 앙상블, k-NN, SVMS T U D Y/DataBase 2023. 2. 5. 19:34
앙상블 모형 여러 개의 분류 모형에 의한 결과를 종합해 분류의 정확도를 높임 약하게 학습된 여러 모델들을 결합해 사용 성능 분산시키기 위해 과적합 감소 효과가 있음 앙상블 모형의 종류 voting 서로 다른 여러 개 알고리즘 분류기 사용 hard voting 각 모델 예측 결과 중 많은 것을 선택 1 예측 3표, 2예측 2표 이면 1 예측 선택 Soft voting 각 모델의 클래스 확률을 구하고 평균이 높은 확률을 선택 (예시) A분류기 : 1번, 0.9 B분류기 : 1번, 0.8 C분류기 : 2번, 0.7 D분류기 : 1번, 0.4 1 예측 : (0.9+0.8+0.3+0.4)/4 = 0.6 => 1예측 선택 2 예측 : (0.1+0.2+0.3+0.6)/4 = 0.4 배깅(Bagging, Bootstr..
-
ADsP 데이터분석준전문가 - 의사결정나무S T U D Y/DataBase 2023. 2. 5. 17:46
의사결정나무(Decision Tree) 해당 그림에서 깊이(depth)는 3임. 가지의 갯수) 독립변수(=설명변수, 예측변수, Feature) 종속변수(=목표변수, 반응변수, Label) 특징 새로운 데이터 분류 또는 값 예측 분리변수 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음 부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해나감(불순도 감소) 종류 목표변수(=종속변수)가 이산형인 경우 분류나무 목표변수가 연속형인 경우 회귀나무 장점 구조가 단순해서 해석 용이 비모수적 모형으로 수학적 가정 불필요 범주형(이산형)과 수치형(연속형) 변수 모두 사용 가능 단점 분류 기준값의 경계선 부근의 자료 값에 대해서는 오차가 큼 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어려움 새로운 ..
-
ADsP 데이터분석준전문가 - 데이터 마이닝, 데이터 분석 순서, 분류분석 종류S T U D Y/DataBase 2023. 2. 5. 16:15
데이터 마이닝 모든 사용가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙을 발견하고 실제 비즈니스 의사결정 등에 유용한 정보로 활용하는 일련의 작업 데이터 마이닝 5단계 1. 목적정의 : 데이터 마이닝 도입 목적을 명확히 함 2. 데이터 준비 : 데이터 정제(Cleaning)을 통해 데이터의 품질 확보 포함, 필요시 데이터 양 충분히 확보 3. 데이터 가공 : 목적변수 정의, 필요 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있게 가공/준비 단계 4. 데이터 마이닝 기법 적용 : 모델을 목적에 맞게 선택 후 소프트웨어 사용하는데 필요한 값 지정 5. 검증 데이터 마이닝 기법 분류 기존의 분류, 정의된 집합에 배정 추정 알려지지 않은 결과의 값을 추정 연관분석(Assoc..
-
ADsP 데이터분석준전문가 - 시계열 예측, 시계열 모형S T U D Y/DataBase 2023. 2. 4. 19:06
시계열자료 시간의 흐름에 따라 관측된 데이터 시계열데이터(자료)는 정상성을 못하면 분석할 수 없다는 틀린 지문. 정상성을 갖지 않는 자료는 정상성 갖도록 변환한 후 시계열자료를 만들 수 있음 정상성 시계열의 평균과 분산에 체계적인 변화 및 주기적 변동이 없다는 것 미래는 확률적으로 과거와 동일 시점에 상관없이 시계열의 특성이 일정한 것 정상시계열의 조건 평균은 모든 시점(시간t)에 대해 일정하다 = 평균이 일정하다 분산은 모든 시점(시간t)에 대해 일정하다 = 분산이 시점에 의존하지 않는다 공분산은 시점(시간t)에 의존하지 않고, 시차에만 의존한다. = 시점에는 의존하지 않고, 시차에만 의존한다. 의존하지않는다 = 관계없다, 관계없이 일정하다. 정상시계열로 전환하는 방법 평균이 일정하지 않은 경우 : 원..