Hodustory/프로그래밍&DB

[데이터 분석 공부 1일차] 모집단과 표본추출법

호두밥 2019. 7. 2. 17:28

데이터의 수집

  • 1930년 이후부터 발전 시작
  • 1단계 : 연필, 노트, 수동적 수집
  • 2단계 : 휴대폰같이 손으로 들고 다닐 수 있는 컴퓨터를 이용해 자동 수집
  • 3단계 : 데이터 자동, 실시간 갱신 및 수집 (자동화) -> 오늘날 "데이터의 시대".

1937년 데이터 분석 사례 : 'Mass Observation'

데이터화, Datafication

  • 삶의 모든 측면을 포착해 그것을 데이터로 바꾸는 과정
  • 대상을 데이터화하여 다양하게 활용 및 새로운 가치로 변환할 수 있다.

데이터분석

  • 데이터를 통계 및 계량적 측면에서 분석하고, 분석 결과로 나온 설명 모델과 예측 모델을 활용하는 것.

 

 

모집단과 표본

  • 데이터가 폭증하는 시대에 목적에 따라 적절한 데이터를 선정해야 될 필요가 있음.
  • 데이터 분석의 결과는 항상 어떤 집단을 대상으로 한 것인지를 확인해야 하며, 일반화하는 것을 경계해야 함.

추출 단위

sampling unit

모집단을 구성하는 각 개체

특성값

Characteristic value

각 추출 단위의 특성을 나타내는 값. (ex. 키, 수확량)

모집단

population

통계적 분석의 대상이 되는 조사대상의 전부 (ex. 서울 시민 전체)

표본

sample

통계적 분석을 위해 선택된 모집단의 일부

통계적 추론

  • 데이터 불확실성(data uncertainty) : 데이터의 신뢰도
  • 데이터 무작위성(data randomness) : 데이터의 신뢰도를 갖추기 위해, 한쪽으로 치우치지 않고 무작위하게 데이터를 수집해야 함. (참고)
  • 데이터를 분석한 결과를 현실 세계에 유용한 정보로 변환하는, 통계 및 수학을 기반으로 한 과정을 통계적 추론이라 함.

표본추출법

1) 단순 랜덤 추출법 (Simple Random Sampling) 

  • 모집단의 각 추출 단위가 표본으로 선택될 확률이 같은 방식
  • 단순 랜덤 비복원 추출 : 단순 개체 중복 추출 불가
  • 단순 랜덤 복원 추출 : 단순 개체 중복 추출 가능

2) 층화 추출법 (Stratified Sampling) 

  • 모집단을 몇 개의 층으로 분류한 뒤, 각 층에서 표본을 랜덤하게 추출
  • ex) 성별, 학년별

3) 집락 추출법 (Cluster Sampling)

  • 단위를 축소해 추출
  • 추출 작업이 편리하고 비용 절감
  •  ex) 서울시의 400개 동 중 50개의 동만 선택하여 데이터 수집

4) 계통 추출법 (Systematic Sampling)

  • 단순 개체를 무작위로 나열한 뒤, 구간을 나누고, 각 구간에서 하나를 임의로 선택.

자료의 종류

1) 질적자료 (Quailtative data)

  • 명목 척도(nominal scale) : 측정 대상이 어느 집단에 속하는 가(성별, 출생지 구분 등)
  • 순서 척도(ordinal scale) : 측정 대상이 어느 정도의 수준을 가지는가(선호도 조사 등 - 아주 좋아한다, 그저그렇다, 싫어한다)

2) 양적자료 (Quantitative data)

  • 구간 척도(interval scale) : 절대적 기준인 0값이 없고 측정 대상이 갖고 있는 속성의 양 (온도, 지수 등)
  • 비율 척도(ratio scale) : 절대적 기준인 0값이 존재하며 사칙연산이 가능한 속성의 수치 (무게, 나이, 소득 등)

 

 

위치 측도와 산포 측도

위치측도(location parameters) : 특성 값들의 대략적인 크기

  • 표본평균(sample mean) : 데이터의 합계를 데이터 총 개수로 나눈 값 $$ \bar{x}=\cfrac{x_1+x_2+\cdot\cdot\cdot+x_n}{n} $$
  • 중앙값(median) : 데이터를 크기 순서로 나열할 때 가장 중앙에 위치하게 되는 데이터 값
  • 분위수(quantile) : 정렬된 데이터를 균등하게 q개로 나눈 값(ex 4-quantiles는 사분위수)
  • 백분위수(percentile) : 특정 값 이하의 데이터가 전체의 p%임을 의미 (Q1 : 25 percentile)

산포측도(scale parameters) : 특성 값들 간의 거리(얼마나 퍼져있는가)

  • 표본분산(sample variance) : 데이터의 값이 평균으로 부터 떨어져 있는 정도를 나타내는 값$$ s^2 = \frac{1}{n-1}\textstyle\sum_{i=1}^n(x_i-\bar{x})^2 $$
  • 표본 표준편차(sample deviation) : 데이터가 얼마나 퍼져있는가를 나타내는 값 $$ \sigma = \sqrt{s^2} $$
  • 평균 절대 편차 (mean absolute deviation) : 데이터가 얼마나 퍼져있는가를 나타내는 값 $$ \frac{1}{n}\textstyle\sum_{i=1}^n|x_i - Q_2| $$
  • 사분위수 범위(interquartile range) : 데이터의 Q3(4분위 중 3번째)값과 Q1(4분위 중 첫번째)값의 차이 $$ Q_3 - Q_1 $$

상관계수 (Correlation Coefficient)

  • 두 변수 간에 선형관계가 존재하는 가를 나타내는 측도
  • 인과관계를 나타내는 것은 아님을 주의
  • 상관계수 공식 : $$ \rho = \frac{cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} $$
  • 상관계수는 -1 ~ 1 까지의 값을 갖는다
  • 절대값이 0에 가까울수록 선형관계가 없고, 1에 가까울 수록 선형관계가 있다는 것을 의미

왜도와 첨도

  • 데이터의 분포 형태에 따라 다른 방법론을 적용해야 함
  • 정규 분포 여부 판단 가능

왜도(Skewness) : 중심을 기준으로 한 쪽으로 치우친 정도

 

  • 왜도 = 0, 좌우대칭
  • 왜도 > 0, 긍정적 비대칭(positive skew) - 오른쪽 치우침
  • 왜도 < 0, 부장적 비대칭(negatice skew) - 왼쪽 치우침

 

첨도(Kurtosis) : 분포의 형태가 정점위치에서 뾰족한 정도

  • 첨도 = 0, 정상분포 - 표준정규분포와 동일
  • 첨도 > 0, 첨용(Leptokurtic) - 표준정규분포보다 뾰족
  • 첨도 < 0, 평용(platykurtic) - 표준정규분포보다 납작

 

 

 

 

반응형