Hodustory/프로그래밍&DB

[데이터분석 공부 4일차] 통계적 추론

호두밥 2019. 7. 5. 13:21

추정(estimation)

  • 전수조사가 불가능하거나 비실용적인 경우에 실행
  • 대상 모집단으로부터 표본을 추출하고 이러한 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 통계적으로 추론하는 것

점추정

표본 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것 (표본 평균, 표본 분산 등)

 

모수

추정량

모 평균

$$\mu$$

표본 평균

$$\bar{X}$$

모 분산

$$\sigma^2$$

표본 분산

$$S^2$$

묘 표준편차 

$$\sigma$$

표본 표준편차

$$S$$

모 비율

$$p$$

표본 비율

$$\hat{p}$$

 

 

구간 추정

  • 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것 (신뢰구간)
  • 모 평균에 대한 신뢰구간 : 표본 평균의 분포를 이용해 추정

$$(\bar{X}-z_{\frac{a}{2}}\frac{\sigma}{\sqrt{n}}, \bar{X} +z_{\frac{a}{2}}\frac{\sigma}{\sqrt{n}} )$$

 

신뢰구간

  • 산출된 구간 사이에 모수가 포함될 확률을 나타내는 통계량
  • CU는 모수보다 작고 CL은 모수보다 클 확률을 0과 1사이의 숫자 α를 써서 다음과 같이 표기한다.

$$P(C_L < 모수 < C_u)=\alpha$$

  • 이 때 구간 (CL, CU)을 '모수에 대한 신뢰구간'이라 하고, α를 '신뢰계수' 또는 '신뢰수준'이라 하며, 0.95 또는 0.99 등의 값을 주로 사용한다.

 

  • 신뢰 수준을 높게 하면 구간의 길이가 증가한다.
  • 실제 모집단의 모수는 신뢰구간에 포함되지 않을 수도 있다.

https://brilliant.org/wiki/confidence-intervals/

 

가설검정(Hypothesis Testing)

모집단의 모수에 대하여 어떤 가설을 세우고, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

 

귀무가설(HO)

현재까지 주장되어 온 것이나 변화나 차이가 없음을 설명하는 가설

대립가설(H1)

새로이 주장하는 것. 표본으로부터 확실한 그건에 의하여 증명하고자 하는 가설

제 1종 오류(α)

귀무가설이 맞는데 틀렸다고 결론내리는 오류

제 2종 오류(β)

대립가설이 맞는데 귀무가설이 맞다고 결론내리는 오류

검정력

대립가설이 맞을 때, 그것을 받아들이는 확률

유의확률

가설 검증을 할 때, 표본에서 얻은 표본 통계량이 일정한 기각역에 들어갈 확률

기각역(R)

귀무가설을 기각시키는 검정통계량 값들의  범위 

 

 

https://www.google.com/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwj39972-JzjAhXIbrwKHbwuBzIQjhx6BAgBEAM&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DDlwOTOydeyk&psig=AOvVaw0vJmbnWitQb8sJ7-dfd5z3&ust=1562387432612904

 

유의확률(Reject HO, 기각역의 확률)는 자료로부터 대립가설을 지지하는 증거가 얻어질 확률이다.

 

 

 

Z-검정(Z-test)

  • 두 집단의 평균을 비교하는 통계분석 기법
  • 독립 표본 Z검정 : 서로 독립된 두 집단 간의 평균의 차이 검증
  • 대응 표본 Z검정 : 한 집단을 대상으로 어떤 개입의 효과를 측정하기 위한 검증(다이어트 효과)

 

주요개념

$$(1) H_o : \mu_1 = \mu_2\enspace VS \enspace H_1 : \mu > \mu_0 $$ $$z_0 \ge z_{\alpha}이면 H_0를 기각 $$ $$ 유의확률 : P(Z \ge z_0) $$

 

$$(2) H_o : \mu_0 = \mu_1\enspace VS \enspace H_1 : \mu < \mu_0 $$ $$z_0 \geq -z_{\alpha}이면 H_0를 기각 $$ $$ 유의확률 : P(Z \geq -z_0) $$

 

$$(3) H_o : \mu_0 = \mu_1\enspace VS \enspace H_1 : \mu \ne \mu_0 $$ $$|z_0| \ge -z_{\alpha/2}이면 H_0를 기각 $$ $$ 유의확률 : P(Z \ge |z_0|) $$

 

검증방법

  1. 두 집단의 분산을 가지고 Z통계량을 구한다.
  2. Z분포표에서 유의수준α, 자유도에서 Z분포값으로 기각역을 찾는다
  3. Z분포값과 Z통계량을 비교하여 결과를 얻는다.
  • Z통계량 > Z분포값 : 귀무가설 기각
  • Z통계량 ≤ Z분포값 : 귀무가설 채택
  • Z통례량 산출식

$$Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$$

 

T-검정(T_test)

  • 두 집단의 평균을 비교하는 통계분석 기법
  • 독립 표본 T 검정 : 서로 독립된 두 집단 간의 평균 차이를 검정
  • 대응 표본 T 검정 : 한 집단을 대상으로 어떤 개입의 효과를 측정하기 위한 검증
  • 자료가 정규성을 따른다는 가정을 만족해야 함
  • 가설
    • 귀무가설(H0) : 두 집단의 평균이 같다
    • 대립가설(H1) : 두 집단의 평균이 유의한 차이가 있다
  • 검증방법
    1. 두 집단의 합동분산을 구하고 T통계량을 구한다
    2. T분포표에서 유의수준 α, 자유도에서 T분포값으로 기각역을 찾는다.
    3. T분포값과 T통계량을 비교하여 결과를 얻는다
      • T 통계량 > T분포값 : 귀무가설 기각
      • T 통계량 ≤ T분포값 : 귀무가설 채택
    4. T통계량 산출식 
      • 표본 평균과 분산 및 합동 분산을 이용해 검정 통계량을 구한다
      • 합동분산 $$(S_p^2) = \frac {(n_1-1)s^2 + (n_2-1)s_2^2}{n_1+n_2-2} $$
      • 검정통계량 $$(t_2) = \frac{\bar{X_1}-\bar{X_2} - (\mu_1-\mu_2)}{\sqrt{\frac{s_p^2}{n_1} +\frac{s_p^2}{n_2} }}$$
반응형