평균 추론에 필요한 조건

반응형



통계에 대해 공부하다보면, 헷갈리는 것 중의 하나가 모집단에 사용되는 기호와 표본집단에 사용되는 기호가 혼재해서 사용된다는 점이다. 바로 평균과 표준편차에 대한 것이 그것이다.

모집단 vs 표본집단

일반적으로 모집단의 평균과 표준편차보다는 표본집단의 평균과 표준편차에 대해 확인하는 것이 훨씬 쉽다. 그리고 당연히 이 표본이 모집단을 대표할 수 있다는 확신을 전제한다. (물론 아닌 경우도 분명 있다.)

평균 추론에 대한 필요조건을 충족했을 때, 우리는 표본이 모집단을 대표할 수 있다고 보고 이때 모표준편차 σ는 표본표준편차 s로 대체할 수 있다. 그리고 그 조건은 다음과 같다.


첫째, 임의성이다. 표본은 무작위로 추출되어야 한다.
둘째, 일반성이다. 표본분포는 정규분포를 따라야 한다. 왜도의 절댓값이 2보다 작고, 첨도의 절댓값이 7보다 작을 때 정규성을 가정한다.
셋째, 독립성이다. 각각의 관측값은 독립이어야 한다. 표본의 수는 모집단의 수의 10% 이하로 관측값을 제거해도 모집단에 영향을 미치지 않아야 한다.

 

임의성, 정규성, 독립성

반응형

왜 유의확률(p value)은 0.05를 기준으로 하는가?

반응형

이 0.05라는 값은 통계적 유의미성을 지지하는 기준값이다. 즉 p<.05이면, 영가설 기각이 통계적으로 유의미하다는 뜻이 된다. 하지만 의문이 들지 않는가? 왜 하필 0.05일까? 만일 내가 한 연구에서 유의확률이 0.051이 나왔다면 좀 아깝지 않을까? p-hacking, p 해킹에 대해 더 찾아 읽어보자.


사실 이 0.05라는 값은 반드시 0.05이어야 할 과학적 근거가 있는 것은 아니다. 다만, 20세기 위대한 통계학자 중의 한명인 Ronald Fisher가 1925년 그의 저서 『Statistical Methods for Research Workers(p.46)』에서 처음 언급하게 된다. 

[출처] 위키피디아 https://en.wikipedia.org/wiki/Ronald_Fisher

"The value for which P = 0.05, or 1 in 20, is 1.96 or nearly 2 ; it is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not."
"P = 0.05, 즉 20분의 1인 값은 1.96 또는 거의 2입니다. 편차가 중요한지 여부를 판단할 때 이 점을 한계로 삼는 것이 편리합니다."

귀납법이 갖는 철학적 한계를 해결하기 위해 통계적 접근방법을 활용한 것으로, 현대 통계의 역사를 다룬 『The Lady Tasting Tea: How Statistics Revolutionized Science in the 20th Century』에서 David Salsburg(2001)는 Fisher의 결정이 ‘임의적’인 것이었다고 말한다.
p<.05는 관행일 뿐 절대시할 수치는 아니라 할 것이지만, 사회적 약속인 것 또한 사실이다.

반응형

p value(유의확률)를 표기하는 방법

반응형

2010년의 APA((American Psychological Association) style manual 제6판(p.141)에 따르면, p value를 다음과 같이 표기하라고 말한다.

① 소숫점 앞의 0은 표기하지 않는다. 예) 0.051(X) .051(O)
② 소숫점 셋째자리까지 직접 기술한다. 예) p=.051
③ 만일 .000보다 더 작다면(예를 들어 p=.000123), p<.001로 표기한다.
   ※ SPSS의 경우 버전 26까지는 .000으로, 버전 27부터는 p<.001로 나타낸다.

덧붙여 몇 가지 주의사항을 언급해보자면,
④ 통계에서 쓰는 기호는 기본적으로 이탤릭체로 쓰며, 사이띄우기는 하지 않는다.
⑤ 또한, “유의미하다(significant)”의 반대말은 “무의미하다(insignificant)”가 아니라, “유의미하지 않다(nonsignificant)”이다.

반응형

부등식의 표현 이해

반응형

우리는 초등학교 때 부등식에 대해 배웠다. 그리고 나이가 들면서 미만/이하, 초과/이상의 구분은 기억하고 있다. 하지만 오히려 이를 우리말로 표현하면 헷갈려한다.

미만, 이하

통계에서 영가설의 기각 여부를 판단하는 기준으로 유의확률 p<.05와 같이 표현하곤 한다. 이는 p value가 0.05보다 작다는 말이지만, 0.05보다 크지 않다는 뜻은 아니다.
덧붙여 부등호 중 ‘작거나 같다’ 또는 ‘크거나 같다’의 표기는 ≤와 ≥를 사용한다. 하지만 예전에 수학을 배우신 분들은 ≦와 ≧가 더 익숙할 것이다. ≤과 ≦, ≥과 ≧은 같은 의미이다. 그리고 오늘날은 ≤과 ≥를 사용한다. 

반응형

공(空)과 무(無), 0과 null

반응형

없다는 것을 나타내는 다양한 표현이 있다. 0, ○(공), 無 그리고 null 등 이들은 서로 어떻게 다른 것일까?
일단 우리는 숫자 0을 영(零)과 공(空)으로 읽는다. 하지만 원칙은 ‘영’으로 읽는 것이 맞다. 굳이 구분하자면 공은 ○과 같은 기호로 보는 것이 옳을 듯하다. 
하지만 이것은 무(無)와는 조금 다르다. 불교에서는 색즉시공(色卽是空)이라 말한다. 있는 것(色)이 어떻게 없는 것(空)이 될 수 있을까라는 오묘한 철학적 논쟁은 잠시 뒤로 미뤄두고 그 표현만 가져와보자. 있는 것이 없어졌다면 그것은 없는 것(無)인가 없어진 것(空)인가? 당연히 후자일 것이다. 애초에 없는 것을 무(無)라 하고, 없어진 것을 공(空)이라 한다.
그런데 이런 개념은 신기하게도 프로그래밍에서도 등장한다. 바로 null과 0이다. 예를 들어 종이에 0이라는 숫자 하나를 썼다고 가정해보자. 이는 숫자 0이 있는 것이다. 반면 아무 것도 쓰여지지 않은 빈 종이를 null이라 할 수 있다.
즉, 무(無)는 null에, 영(零) 또는 공(空)은 0에 대입할 수 있을 것이다. 그렇다면 null hypothesis는 표현 그대로라면 귀무(歸無)가설이라고 말할 수 있겠지만, 차이가 없다는 말이 null이라는 뜻은 아니니 영(零)가설이 더 타당하지 않나 싶기도 하다.

반응형