Hodustory/프로그래밍&DB

[데이터분석 공부 2일차] 자료 시각화(히스토그램, 상자그림, 산점도 분석)

호두밥 2019. 7. 2. 19:07

기술통계 (Descriptive Statistics)

  • 자료를 요약하는 기초적 통계
  • 데이터 분석에 앞서 데이터에 대한 이해와 통찰을 얻기 위한 과정
  • 빈도, 평균, 표준편차, 중앙값, 최소값, 최대값, 범위, 왜도, 첨도, 오차 등

 

자료의 시각화(Visualization)

자료의 특징이나 분포를 한눈에 보기 쉽도록 시각화

 

 

히스토그램(Histogram)

  • 빈도수를 표현하는 막대 그래프
  • 사각형의 높이는 구간의 밀도와 동일하다
  • 히스토그램의 전체 영역은 데이터의 개수와 동일하다

 

상자그림(Box plot)

  • 데이터의 분포 형태 확인 및 분석에 주요한 변수 도출을 위해 사용하는 방법
  • 자료의 크기 순서를 나타내는 순서 통계량을 이용하여 자료를 요약 정리하는 방법
  • (순서통계량 : 최소값, 제1사분위수, 중앙값, 제3사분위수, 최대값)
  • 사분위수를 한 눈에 볼 수 있음
  • 데이터의 분포의 대칭성 확인
    • 좌우대칭이면 중위수가 상자의 중심부에 위치
    • 비대칭이면 중위수가 상자의 중심부에 위치하지 않음
  • 상자의 길이가 길면 자료값이 넓게 분포함을 의미, 좁을 땐 데이터가 중앙값을 중심으로 밀집되어 있음을 의미 
  • 시사점
    • 이상치 확인
    • 주요변수 확인

 

산점도분석

  • 두 변수간의 상관관계를 시각적으로 확인
  • 자료의 분산 정도를 보여줌
  • 변수들 사이의 관계를 왜곡시키는 이상치(outlier)를 확인하는 경우에도 유용

 

 

 

반응형