Hodustory/프로그래밍&DB

[데이터분석공부 5일차] 모평균에 대한 추론(가설 검정)

호두밥 2019. 7. 6. 13:52

모평균에 관한 추론

점추정 : 모집단의 확률분포가 정확하게 알려진 경우, 표본평균을 이용해 모평균을 추정

구간추정 : 모집단의 특성에 따른 표본평균의 분포를 이용하여 신뢰구간을 추정

 

신뢰구간 추정

모평균의 100(1-α)%의 신뢰구간

  1. 모집단이 분산이 알려진 정규분포를 따를 경우-표본분포를 이용 $$\bar{X} - z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}},\enspace \bar{X} + z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}} $$
  2. 모집단의 분산이 알려졌으나 정규분포를 따르지 않을 경우(n이 충분히 클 때) - 중심극한정리를 이용  $$\bar{X} - z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}},\enspace \bar{X} + z_{\frac{a}{2}}\cdot\frac{\sigma}{\sqrt{n}} $$
  3. 모집단이 분산이 알려져 있지 않고 정규분포를 따르지 않을 경우 - T분포를 이용 $$ \bar{x} - t_{\frac{\alpha}{2}}(n-1)\cdot\frac{s}{\sqrt{n}}, \enspace \bar{x} + t_{\frac{\alpha}{2}}(n-1)\cdot\frac{s}{\sqrt{n}} $$

신뢰구간 추정의 예시

모집단이 정규분포를 따르며 n=64로 표본을 추출하였을 때, bar X = 27.750, s=5.083일 때, 모평균의 99% 신뢰구간은?

$$t_{0.005} (63) = 2.656이므로\enspace(\alpha=0.01(1\%), n=64),\enspace t_{\frac{\alpha}{2}}(n-1)\cdot\frac{s}{\sqrt{n}}  = 2.656\cdot\frac{5.083}{\sqrt{64}} = 1.688 $$

$$(\bar{x} - t_{\frac{\alpha}{2}}(n-1)\cdot\frac{\sigma}{\sqrt{n}}, \enspace\bar{x} + t_{\frac{\alpha}{2}}(n-1)\cdot\frac{\sigma}{\sqrt{n}})$$ $$=(27.750 - 1.688,\enspace 27.750 + 1.688) \enspace=\enspace (26.062, 29.438) $$

 

모평균에 관한 가설 검정

모집단의 특성에 따른 표본 평균의 분포를 이용하여 모평균에 관한 가설의 합당성 여부를 판단하다.

가설 검정1. 표본이 충분히 클 때

$$Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\enspace근사적으로\enspace N(0,1)을\enspace 따름을\enspace 이용$$

$$검정\enspace 통계량의\enspace 관측값은\enspace Z_0 = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$

$$(\sigma 를\enspace 모를\enspace 때, \enspace표본\enspace 표준편차(s)로 \enspace대체\enspace가능)$$

 

$$(1)\enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu > \mu_0 \enspace(z_0 \geq z_{\alpha}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \geq z_0) $$

$$(2)\enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu < \mu_0 \enspace(z_0 \ge -z_{\alpha}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \ge -z_0) $$

$$(3) \enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu {=}\llap{/\,} \mu_0 \enspace(|z_0| \geq z_{\alpha/2}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \geq |z_0|) $$

 

가설검정 1의 예

A사 과자의 한 봉지당 함량은 125g으로 표기되어 있다. 임의로 64봉지를 뽑아 평균을 구한 결과 121.7g이었다. 봉지당 함량의 표준편차는 12g이라고 할 때, 봉지당 함량의 평균이 125g이라고 할 수 있는가? (유의수준 5%)

 

검정하고자 하는 가설은 $$H_0 : \mu = 125 \enspace VS \enspace H_1:\mu {=}\llap{/\,} 125$$ 검정통계량 관측값은 $$z_0 = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}} = \frac{121.7-125}{12/\sqrt{64}} = -2.2 $$

이고 $$ |z_0| = |-2.2| \geq z_{0.025}=1.96이므로, \enspace H_0를 기각$$

즉, 과자의 봉지당 함량은 평균 125g이라고 할 수 없다.

 

가설검정2. 모분산을 아는 경우

$$Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\enspace근사적으로\enspace N(0,1)을\enspace 따름을\enspace 이용$$

$$검정\enspace 통계량의\enspace 관측값은\enspace Z_0 = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$

가설

$$(1)\enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu > \mu_0 \enspace(z_0 \geq z_{\alpha}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \geq z_0) $$

$$(2)\enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu < \mu_0 \enspace(z_0 \ge -z_{\alpha}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \ge -z_0) $$

$$(3) \enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu {=}\llap{/\,} \mu_0 \enspace(|z_0| \geq z_{\alpha/2}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \geq |z_0|) $$

 

가설 검정2의 예

어느 창던지기 선수의 10회 기록이 다음과 같고, 표준편차가 1이라고 알고 있을 때, 이 선수의 창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수즌 5%에서 검정하여라. (창던지기 기록은 정규분포를 따른다고 가정한다.)

64.0

64.8

66.0

63.5

65.0

68.0

67.0

63.6

67.6

68.9

검정하고자 하는 가설은 $$H_0 : \mu = 65 \enspace VS \enspace H_1:\mu > 65$$

$$n = 10,\enspace \bar{x}=65.84, \enspace \sigma=1$$이며, 검정통계량 관측값은 

$$Z_0 = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}} \enspace = \enspace \frac{65.84-65}{1/\sqrt{10}} \enspace = \enspace 2.66이고, \enspace z_0=2.66\geq z_{0.05} = 1.645이므로 H_0를 기각한다$$

즉, 이 선수의 평균 창던지기 거리가 65m가 넘는다고 할 수 있다.

 

가설검정3. 모분산을 모르는 경우

$$T=\frac{\bar{X}-\mu_0}{S/\sqrt{n}} ~t(n-1)$$ 

검정 통계량의 관측값은 $$t_0=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$$

 

가설

$$(1)\enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu > \mu_0 \enspace(t_0 \geq t_{\alpha}(n-1)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq t_0) $$

$$(2)\enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu < \mu_0 \enspace(t_0 \ge -t_{\alpha}(n-1)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \ge -t_0) $$

$$(3) \enspace H_0 : \mu = \mu_0 \enspace VS \enspace H_1:\mu {=}\llap{/\,} \mu_0 \enspace(|t_0| \geq t_{\alpha/2}(n-1)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq |t_0|) $$

 

가설 검정3의 예

어느 창던지기 선수의 10회 기록이 다음과 같고, 선수의 창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수준 5%에서 검정하여라. (창던지기 기록은 정규분포를 따른다고 가정한다.)

 

64.0

64.8

66.0

63.5

65.0

68.0

67.0

63.6

67.6

68.9

 

검정하고자 하는 가설은 $$H_0 : \mu = 65 \enspace VS \enspace H_1:\mu > 65$$

$$n = 10,\enspace \bar{x}=65.84, \enspace s=1.948$$이며, 검정통계량 관측값은 

$$t_0 = \frac{\bar{x}-\mu_0}{s/\sqrt{n}} \enspace = \enspace \frac{65.84-65}{1.948/\sqrt{10}} \enspace = \enspace 1.364이고, \enspace t_0=1.364 < t_{0.05}(9) = 1.833이므로 \enspace H_0 를 \enspace 기각할 \enspace 수 \enspace 없다.$$

즉, 이 선수의 평균 창던지기 거리가 65m가 넘는다고 할 증거가 없다.

 

이표본에 의한 모평균의 비교

독립된 두 모집단의 모평균 차이에 관한 합당성 여부를 판단한다. 

 

가설검정1. 표본이 충분히 클 때,

$$X_11,X_12,\cdots,X_{1n_1}을 \enspace 평균\mu_1, \enspace 분산이 \enspace \sigma^2_1인 \enspace 모집단에서\enspace 뽑는\enspace 크기\enspace n_1인 \enspace 확률 \enspace 표본$$

$$X_21,X_22,\cdots,X_{2n_1}을 \enspace 평균\mu_2, \enspace 분산이 \enspace \sigma^2_2인 \enspace 모집단에서\enspace 뽑는\enspace 크기\enspace n_2인 \enspace 확률 \enspace 표본$$이고, 두 표본은 독립일 때, 

$$Z=\frac{(\bar{X}_1-\bar{X}_2)-(\mu_1-\mu_2)}{\sqrt{(\sigma^2_1/n_1)+(\sigma^2_2/n_2)}}이고 \enspace 근사적으로 \enspace N(0,1)을 \enspace 따름$$

검정통계량의 관측값은 $$z_0 = \frac{(\bar{x}_1 - \bar{x}_2)}{\sqrt{(\sigma^2_1/n_1)+(\sigma^2_2/n_2)}}$$

 

가설

$$(1)\enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 > \mu_2 \enspace(z_0 \geq z_{\alpha}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \geq z_0) $$

$$(2)\enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 < \mu_2 \enspace(z_0 \ge -z_{\alpha}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \ge -z_0) $$

$$(3) \enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 {=}\llap{/\,} \mu_2 \enspace(|z_0| \geq z_{\alpha/2}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(Z \geq |z_0|) $$

 

가설 검정1의 예시

두 모집단의 어떤 특성치를 비교하기 위하여 모집단1에서 80개, 모집단2에서 60개의 표본을 뽑은 값의 평균과 표준편차는 다음과 같다. 두 모집단의 특성치의 평균이 서로 다르다고 할 수 있는지 유의수준 5%에서 검정하여라.

(두 집단은 서로 독립)

 

 

모집단1

모집단2

표본평균

109

118

표본표준편차

45.2

54.3

 

두 모집단의 특성치의 평균을 U1, U2라 할 때, 검정하고자 하는 가설은

$$H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 {=}\llap{/\,} \mu_2$$

$$ \bar{x}_1 = 109, \enspace s^2_1 = 45.2^2, \enspace \bar{x}_2 = 118, \enspace s^2_2 = 54.3 이고, \enspace n_1 = 80, \enspace n_2 = 60 으로 \enspace 표본 \enspace 크기가 \enspace 충분히 \enspace 크다$$

 

검정 통계량의 관측값은 $$z_0 = \frac{(\bar{x}_1-\bar{x}_2}{\sqrt{(s^2_1/n_1)+(s^2_2/n_2)}} = \frac{(109-118)}{\sqrt{(45.2^2/80)+(54.3^2/60)}} = -1.041이며, \enspace z_{0.025} = 1.96이므로, \enspace H_0를 \enspace 기각할 \enspace 수 \enspace 없다.$$

 

즉, 이 결과에 의하면 두 모집단의 특성치의 평균이 다르다고 할 수 없다.

 

가설검정2. 두 정규모집단의 분산이 같을 때

$$X_11,X_12,\cdots,X_{1n_1}을 \enspace 평균\mu_1, \enspace 분산이 \enspace \sigma^2_1인 \enspace 모집단에서\enspace 뽑는\enspace 크기\enspace n_1인 \enspace 확률 \enspace 표본$$

$$X_21,X_22,\cdots,X_{2n_1}을 \enspace 평균\mu_2, \enspace 분산이 \enspace \sigma^2_2인 \enspace 모집단에서\enspace 뽑는\enspace 크기\enspace n_2인 \enspace 확률 \enspace 표본$$이고, 두 표본은 독립일 때, 공통분산의 추정량을

$$s_p=\frac{(n_1-1)S^2_1-(n_2-1)S^2_2}{n_1+n_2-2}이라 하자.$$

$$ T=\frac{(\bar{X}_1-\bar{X}_2)-(\mu_1-\mu_2)}{S^2_P \sqrt{(1/n_1)+(1/n_2)}}이고 \enspace t(n_1+n_2-2)을 \enspace 따름$$

검정통계량의 관측값은 $$t_0 = \frac{(\bar{x}_1 - \bar{x}_2)}{s^2_P\sqrt{(1/n_1)+(1/n_2)}}$$

 

가설

$$(1)\enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 > \mu_2 \enspace(t_0 \geq t_{\alpha}(n_1+n_2-2)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq t_0) $$

$$(2)\enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 < \mu_2 \enspace(t_0 \ge -t_{\alpha}(n_1+n_2-2)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \ge -t_0) $$

$$(3) \enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 {=}\llap{/\,} \mu_2 \enspace(|t_0| \geq t_(n_1+n_2-2){\alpha/2}\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq |t_0|) $$

 

가설 검정2 예시

A,B 두 회사에서 생성되는 윤활유의 점도를 각각 자동차 10대씩 사용하여 일정 거리동안 주행한 다음에 윤활유의 점도를 측정하였다. B사가 윤활유가 사용한 후에 평균적으로 A회사 제품보다 점도가 더 높다고 할 수 있는지 유의수준 5%에서 검정하여라. 

(A,B회사의 윤활유의 점도는 분산이 같은 정규분포를 따른다고 가정하자.)

 

 

A

B

표본평균

15.08

15.51

표본 표준편차

12.78

7.40

표본수

10

10

 

A,B 두 회사 윤활유 점도의 평균을 각각 u1, u2라고 할 때, 검정하고자 하는 가설은

$$H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 < \mu_2$$

$$ \bar{x}_1 = 15.08, \enspace s^2_1 = 12.78, \enspace \bar{x}_2 = 15.51, \enspace s^2_2 = 7.40 이고, \enspace n_1 = 10, \enspace n_2 = 10 으로 S^P_2 = \frac{9*12.78+9*7.40}{10+10-2}$$이며

 

검정 통계량의 관측값은 $$t_0 = \frac{(\bar{x}_1-\bar{x}_2}{s^2_p\sqrt{(1/n_1)+(1/n_2)}} = \frac{(15.08-15.51)}{\sqrt{10.09(1/10+1/10)}} = -0.303이며, \enspace -t_{0.05}(18) = -1.734이므로, \enspace H_0를 \enspace 기각할 \enspace 수 \enspace 없다.$$

즉, A회사의 제품보다 B회사의 제품의 점도가 높다고 할 수 없다.

 

가설 검정 3. 등분산의 가정이 없는 경우

$$X_11,X_12,\cdots,X_{1n_1}을 \enspace 평균\mu_1, \enspace 분산이 \enspace \sigma^2_1인 \enspace 모집단에서\enspace 뽑는\enspace 크기\enspace n_1인 \enspace 확률 \enspace 표본$$

$$X_21,X_22,\cdots,X_{2n_1}을 \enspace 평균\mu_2, \enspace 분산이 \enspace \sigma^2_2인 \enspace 모집단에서\enspace 뽑는\enspace 크기\enspace n_2인 \enspace 확률 \enspace 표본$$이라 하자. n1, n2는 5이상이고, 두 표본은 독립이다.

$$ T=\frac{(\bar{X}_1-\bar{X}_2)-(\mu_1-\mu_2)}{\sqrt{(S^2_1/n_1)+(S^2_2/n_2)}}이고 \enspace 근사적으로 t(df)를 \enspace 따름$$

여기서 $$df=\Big(\frac{S^2_1}{n_1}+\frac{S^2_2}{n_2}\Big)^2 / \Big\{\frac{1}{n_1-1}\Big(\frac{s^2_1}{n_1}\Big)^2 + \frac{1}{n_2-1}\Big(\frac{s^2_2}{n_2}\Big)^2 \Big\rbrace $$

검정통계량의 관측값은 $$t_0 = \frac{(\bar{x}_1 - \bar{x}_2)}{\sqrt{(S^2_1/n_1)+(S^2_2/n_2)}}$$

 

가설

$$(1)\enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 > \mu_2 \enspace(t_0 \geq t_{\alpha}(df)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq t_0) $$

$$(2)\enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 < \mu_2 \enspace(t_0 \ge -t_{\alpha}(df\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \ge -t_0) $$

$$(3) \enspace H_0 : \mu_1 = \mu_2 \enspace VS \enspace H_1:\mu_1 {=}\llap{/\,} \mu_2 \enspace(|t_0| \geq t_{\alpha/2}(df)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq |t_0|) $$

 

대응비교(쌍체비교)에 의한 모평균의 비교

동일개체 또한, 동질적인 두 쌍에 대한 모평균 차이에 관한 가설의 합당성 여부를 판단한다.

 

가설검정

두 모집단이 쌍으로 조사된 자료이며 두 모집단은 정규분포를 따를 때, (X1,Y1), (X2,Y2)...(Xn,Yn)가 주어졌을 때,Xi의 평균을 Ux, Yi의 평균을 Uy르 하면, 각 관측치 쌍에 대하여

Di = Xi - Yi, i=1,2,...,n 으로 정의하고 Di의 평균을 Ud로 나타낼 수 있다.

$$T = \frac{\bar{D}-\mu_D}{S_D/\sqrt{n}}~t(n-1)$$ 

검정통계량의 관측값은 $$t_0 = \frac{\bar{d}}{s_D/\sqrt{n}}$$

 

가설

$$(1)\enspace H_0 : \mu_D =0 \enspace VS \enspace H_1:\mu_D > 0 \enspace (H_0 : \mu_X = \mu_Y \enspace VS H_1:\mu_X > \mu_Y)$$

$$t_0 \geq t_{\alpha}(n-1)\enspace 이면 \enspace H_0를 \enspace 기각$$

$$ 유의 확률 : P(T \geq t_0) $$

$$(2)\enspace H_0 : \mu_D = 0 \enspace VS \enspace H_1:\mu_D < 0 \enspace(H_0 : \mu_X = \mu_Y \enspace VS H_1:\mu_X < \mu_Y)$$

$$t_0 \ge -t_{\alpha}(n-1)\enspace 이면 \enspace H_0를 \enspace 기각$$

$$ 유의 확률 : P(T \ge -t_0) $$

$$(3) \enspace H_0 : \mu_D = 0 \enspace VS \enspace H_1:\mu_d {=}\llap{/\,} 0\enspace (H_0 : \mu_X = \mu_Y \enspace VS H_1:\mu_X {=}\llap{/\,} \mu_Y)$$

$$(|t_0| \geq t_{\alpha/2}(n-1)\enspace 이면 \enspace H_0를 \enspace 기각)$$

$$ 유의 확률 : P(T \geq |t_0|) $$

 

가설검정

임의로 추출된 10명의 비반 여성에 대하여 감량을 위한 음식 조절법을 실시한 전후의 체중이 다음과 같다. 정규분포를 따른다고 할 때, 음식 조절법의 효과가 있는지 유의수준 5%에서 검정하여라.

 

 

1

2

3

4

5

6

7

8

9

10

82.1 78.1 86.2 84.8 95.5 91.6 75.3 78.5 83.0 83.5

80.7 78.1 83.9 83.5 91.2 91.2 72.6 76.2 81.6 81.2

 

X:음식 조절 전, Y:음식 조절 후 체중

검증하고자 하는 가설은

$$H_0 : \mu_D=0 \enspace VS \enspace H_1:\mu_D >0$$

$$(H_0 L \mu_X = \mu_Y \enspace VS \enspace H_1:\mu_X < \mu_Y) $$

체중 측정 결과 자료로부터 계산하면, d=1.81, sd = 1.16, n=10이므로

$$t_0 = \frac{\bar{d}}{S_D/\sqrt{n}} = \frac{1.81}{1.16/\sqrt{10}} = 4.934이고, \enspace t_0 \geq t_{0.05}(9) = 1.833이므로$$

H0를 기각할 수 있다.

즉 음식조절 후 몸무게 평균이 음식 조절 전에 빟비해 줄었다고 말할 수 있다.

반응형