9. 이제 유의수준, 유의확률, 신뢰수준, 신뢰구간을 비교해보자.

반응형

데이터분석을 공부하다보면 용어가 비슷한 것이 너무 많다. 유의수준(significance level)과 유의확률(significance probability)이 그렇고 신뢰수준(confidence level)과 신뢰구간(confidence interval)이 그렇다. 분명 이 용어들은 각각 다른 의미를 갖는다. 하지만 굳이 그것들을 구분할 필요가 있나 싶기도 하다.

컴퓨터 통계 프로그램이 계산해주는 것은 유의확률(p)이다. 그리고 이 유의확률은 영가설이 옳다는 가정 하에 검정통계량이 계산될 확률이다. 즉 영가설이 채택될 확률이다.
그리고 유의확률(p)이 유의수준(α)보다 낮을 때 영가설을 기각한다. 즉, 유의확률(p)은 영가설을 기각할 수 있는 최소한의 유의수준(α)이다. 그리고 일반적인 경우 우리는 이 유의수준(α)을 0.05로 설정하고 있다. 즉 p<α이면 영가설을 기각한다/p<.05이면 영가설을 기각한다.


· 유의수준(α): 영가설 기각을 위해 정해놓은 설정값(비교기준)
· 유의확률(p): 데이터분석을 통해 표본으로부터 구해진 값
· 신뢰수준 = 1-α


한편 신뢰수준은 모집단에서에서 취해진 확률표본을 사용하여 계산된 구간에 모수가 포함될 확률이다. 95% 신뢰수준이라는 말은 표본조사를 100번하면 95번은 같은 결과를 얻게된다는 말이다. 즉 표본집단이 얼마나 믿을만한지에 대한 설명이다.
그리고 결국 유의수준과 신뢰수준을 합하면 1이 된다. 다만 일반적으로 유의수준은 소숫점으로, 신뢰수준은 백분율(%)로 표현한다.

신뢰구간(confidence interval, CI)은 모수가 포함될 것으로 예측되는 범위로, Z점수(Z score, 표준점수) Z점수는 표준점수라고도 하는데, 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다. 음수이면 평균이하, 양수이면 평균이상이다.

를 이용하여 계산한다. 표본평균(X)과 표본표준편차(s), 표본의 수(n)를 이용해 계산하는 공식은 아래와 같다.

신뢰구간(CI)를 구하는 공식

이때 Z점수는 95% 신뢰수준일 때 1.96, 99% 신뢰수준일 때 2.58로 정해져있다. 그리고 를 오차한계(margin of error)라 하고, 하한값을 LL(lower limit), 상한값을 UL(upper limit)로 표시한다. 신뢰구간(CI)는 LL과 UL사이의 구간을 말한다. 그리고 검정값이 신뢰구간의 범위 안에 있으면 영가설을 채택한다. 즉 검정값은 참이 된다.

신뢰구간의 범위 안에 검정값이 있으면 이는 참이다.



반응형