Hodustory/프로그래밍&DB

데이터의 탐색 - 결측치와 이상치

호두밥 2019. 7. 8. 22:45

1. 종속변수와 독립변수를 선정한다.

2. 정략적 데이터인지, 정성적 데이터인지를 파악한다. 

 

변수의 유형

  • Character : 문자형 
  • Numeric : 숫자형 
  • Factor : 범주형 
  • Integer : 정수형

분석 가능한 데이터인지를 확인하기 위한 항목

  • 1. 변수의 유형 확인
  • 2. 표준화의 필요성
  • 3. 변수의 선택
  • 4. 데이터의 양 확인

데이터의 표준화 

  • 신뢰성 있는 결과를 얻기 위해 표준화가 필요한 경우
  • 다변량 데이터의 경우, 변수의 단위가 서로 다를 수 있음
  • Z-score = (X-mean(X))/sd(X)

3. 결측치와 이상치 처리

결측치 비율에 따른 변수 제거

  • 결측치가 10%이하인 경우 : 해당 표본을 제거하거나 imputation
  • 결측치가 20%이상인 경우 : 해당 변수 제거 or imputation

데이터량 확인

  • 통상적으로 변수 수의 최소 3배 이상이 되어야 한다.
  • 데이터량이 충분히 확보될 수 있도록 기준 기간을 산정하여야 한다.

이상치 

  • 변수의 분포에서 비정상적으로 벗어난 값. 
  • 이상치 판정 방법론
    • Box-plot : (제3분위수 - 제1분위수) *1.5 + (제1분위수) < x 이거나 제3분위수 - 제1분위수) *1.5 + (제3분위수) > x이면 이상치
    • 3-sigma : 일변량 자료들 중 평균 ± 3*표준편차를 벗어나는 것들을 비정상이라 규정(정규분포 기반)
  • 이상치 처리 방법
    • 제거 : 자료가 많지 않은 경우 권장하지 않음
    • 대체 : 자료의 하한 또는 상한값으로 대체

결측치 

  • 값이 관측되지 않은 자료
  • 결측치 처리방법
    • 제거 : 자료가 많지 않은 경우 권장하지 않음
    • 대체 : 비슷한 자료로 대체 ( 시계열은 같은 시기의 데이터로 , 회귀분석의 추정값으로, 최빈값으로, 평균값으로)

분포분석 : 막대그래프, Histogram, Box-plot, 기술통계량 등을 통해 분포를 파악한다. 정규분포가 아니면 변환을 통해 정규화

 

반응형