추정과 검정

1. 모비율의 추정

- 어떤 집단에서 어떠한 속성을 갖는 구성원이 차지하는 비율(\(p\))를 추정하고 싶을 때, 그 집단에서 \(n\)명의 표본을 선택한 후 그 중에서 그 속성을 갖는 구성원의 수(\(X\))를 이용하여 모비율 \(p\)를 추정할 수 있다.

- 이 집단에서 크기 \(n\)인 표본을 추출하는 문제는 이 집단에서 \(p\)의 확률로 그 속성을 갖는 구성원을 \(n\)번 추출하는 독립시행을 하는 것과 같으므로, 이 문제의 확률변수 \(X\)가 갖는 확률분포는 \(B(n, p)\)인 이항확률분포로 볼 수 있다. 그리고 이 이항확률분포는 \(N(np, np(1-p))\)인 정규분포에 근사한다고 할 수 있다.

2. 가설 검정

- 모집단의 실제 값에 관한 어떤 통계적 가설이 있을 때, 표본의 값을 이용해 그 가설의 참/거짓을 판단하는 것을 가설 검정(hypothesis test)이라 한다.

- 가설 검정에서 검증의 대상이 되는 관습적 가설을 흔히 귀무가설(null hypothesis)이라 하며, 귀무가설과 대립하여 참일 시 귀무가설을 기각할 수 있는 가설을 대립가설(alternative hypothesis)이라 한다. 예를 들어 ‘이번 시험에서 우리 학교 1학년 학생들의 수학 점수 평균은 50점 미만일 것이다’라는 귀무가설이 있을 때, 이의 대립가설은 ‘우리 학교 1학년 학생들의 수학 점수 평균은 50점 이상이다’이다. 가설 검정에서는 주로 귀무가설의 기각을 위해 대립가설이 참임을 입증하게 된다.

- 표본을 통한 검증은 통계적으로 오차의 확률이 있을 수밖에 없는데, 이 오차를 어느 정도 수준까지 허용할 것인지 그 기준을 유의수준(significance level)이라 한다.

예를 들어 ‘우리 학교 1학년 학생들의 수학 점수 평균은 50점 이상이다’라는 대립가설을 증명하기 위해 표본을 추출했을 때, 그 표본의 평균이 굉장히 높은 점수가 나온다면 전체 1학년 학생들의 수학 점수 평균이 50점 이상일 확률도 매우 높아질 것이고 반대로 표본평균이 굉장히 낮다면 1학년 학생들의 수학 점수 평균이 50점 미만일 확률도 매우 높아질 것이다. 유의수준을 5% 이하로 하는 표본평균의 값이 얼마 이상일지 알고자 한다면 \(P(\bar{X} \ge k) \le 0.05\)를 만족하는 \(k\)를 찾으면 된다.