기술통계 (Descriptive Statistics)
- 자료를 요약하는 기초적 통계
- 데이터 분석에 앞서 데이터에 대한 이해와 통찰을 얻기 위한 과정
- 빈도, 평균, 표준편차, 중앙값, 최소값, 최대값, 범위, 왜도, 첨도, 오차 등
자료의 시각화(Visualization)
자료의 특징이나 분포를 한눈에 보기 쉽도록 시각화
히스토그램(Histogram)
- 빈도수를 표현하는 막대 그래프
- 사각형의 높이는 구간의 밀도와 동일하다
- 히스토그램의 전체 영역은 데이터의 개수와 동일하다
상자그림(Box plot)
- 데이터의 분포 형태 확인 및 분석에 주요한 변수 도출을 위해 사용하는 방법
- 자료의 크기 순서를 나타내는 순서 통계량을 이용하여 자료를 요약 정리하는 방법
- (순서통계량 : 최소값, 제1사분위수, 중앙값, 제3사분위수, 최대값)
- 사분위수를 한 눈에 볼 수 있음
- 데이터의 분포의 대칭성 확인
- 좌우대칭이면 중위수가 상자의 중심부에 위치
- 비대칭이면 중위수가 상자의 중심부에 위치하지 않음
- 상자의 길이가 길면 자료값이 넓게 분포함을 의미, 좁을 땐 데이터가 중앙값을 중심으로 밀집되어 있음을 의미
- 시사점
- 이상치 확인
- 주요변수 확인
산점도분석
- 두 변수간의 상관관계를 시각적으로 확인
- 자료의 분산 정도를 보여줌
- 변수들 사이의 관계를 왜곡시키는 이상치(outlier)를 확인하는 경우에도 유용
반응형