1. 종속변수와 독립변수를 선정한다.
2. 정략적 데이터인지, 정성적 데이터인지를 파악한다.
변수의 유형
- Character : 문자형
- Numeric : 숫자형
- Factor : 범주형
- Integer : 정수형
분석 가능한 데이터인지를 확인하기 위한 항목
- 1. 변수의 유형 확인
- 2. 표준화의 필요성
- 3. 변수의 선택
- 4. 데이터의 양 확인
데이터의 표준화
- 신뢰성 있는 결과를 얻기 위해 표준화가 필요한 경우
- 다변량 데이터의 경우, 변수의 단위가 서로 다를 수 있음
- Z-score = (X-mean(X))/sd(X)
3. 결측치와 이상치 처리
결측치 비율에 따른 변수 제거
- 결측치가 10%이하인 경우 : 해당 표본을 제거하거나 imputation
- 결측치가 20%이상인 경우 : 해당 변수 제거 or imputation
데이터량 확인
- 통상적으로 변수 수의 최소 3배 이상이 되어야 한다.
- 데이터량이 충분히 확보될 수 있도록 기준 기간을 산정하여야 한다.
이상치
- 변수의 분포에서 비정상적으로 벗어난 값.
- 이상치 판정 방법론
- Box-plot : (제3분위수 - 제1분위수) *1.5 + (제1분위수) < x 이거나 제3분위수 - 제1분위수) *1.5 + (제3분위수) > x이면 이상치
- 3-sigma : 일변량 자료들 중 평균 ± 3*표준편차를 벗어나는 것들을 비정상이라 규정(정규분포 기반)
- 이상치 처리 방법
- 제거 : 자료가 많지 않은 경우 권장하지 않음
- 대체 : 자료의 하한 또는 상한값으로 대체
결측치
- 값이 관측되지 않은 자료
- 결측치 처리방법
- 제거 : 자료가 많지 않은 경우 권장하지 않음
- 대체 : 비슷한 자료로 대체 ( 시계열은 같은 시기의 데이터로 , 회귀분석의 추정값으로, 최빈값으로, 평균값으로)
분포분석 : 막대그래프, Histogram, Box-plot, 기술통계량 등을 통해 분포를 파악한다. 정규분포가 아니면 변환을 통해 정규화
반응형