6. 영가설 기각의 의미

반응형

앞서 언급했지만, 다소 익숙치 않은 영가설 기각에 대해 좀더 살펴보자. 일반적으로 가설 채택과 기각이라는 표현을 사용한다. 표현 그대로 가설을 채택한다는 말은 내가 주장하고자 하는 가설이 사실로 입증되었다는 말이며, 가설을 기각한다는 말은 해당 사실을 조사결과를 통해 입증할 수 없었다는 말이다. 이를 가설 검정(檢正, test)이라고 한다.
영가설이 ‘차이가 없다’는 가설이라고 하였다. 따라서 영가설이 기각된다는 말은 ‘차이가 있다’는 결론을 말한다.

p value와 영가설 기각

이때 영가설을 기각할 수 없다는 말이 영가설을 채택한다는 뜻이 아님을 주의해야한다. 때문에 영가설을 기각할 수 없다는 표현을 사용하였다.
한걸음만 더 나아가보자. 영가설이 기각되면, 차이가 있다는 대립가설이 ‘통계적으로 유의미’하다는 결론을 도출하게 된다. 이는 확률적으로 보았을 때 해당결과가 단순한 우연으로 발생되었을 가능성이 희박하다는 뜻이기도 하다.

한편 여러 가지 이유로 우리는 영가설이 참임에도 이를 기각하는 오류를 범하는 경우가 있다. 이를 제1종 오류(Type 1 error)라고 한다. 거짓(僞)양성 또는 알파(α)오류라고도 부른다.
반대로 대립가설이 참인데, 영가설을 채택하는 오류를 제2종 오류(Type 2 error) 또는 베타(β)오류라 부른다.

제1종 오류, 제2종 오류

이를 영가설의 개념으로 다시 구성해보면 다음과 같다.

제1종 오류, 제2종 오류

조금더 쉽게는 『양치기소년』이라는 이솝우화를 들어 설명해 볼 수 있다. 양치기 소년은 늑대가 없음에도 늑대가 나타났다(있다)고 소리쳤다. 즉 실제 상황은 영가설이 참(늑대가 없음)인데, 이를 기각함으로써 오류가 발생했다. 이를 제1종 오류라고 부른다.
통계에서는 가설검정시 이런 제1종 오류를 5% 이내로 설정하는데, 이를 유의수준(significance level, α)이라한다.
혹자는 제1종 오류와 제2종 오류를 비교하면서 어떤 것의 위험성이 더 큰가를 설명하기도 한다. 그리고 의약품 개발을 예를 들어 제1종 오류가 더 위험성이 크다고 주장한다. 하지만 이는 상대적인 것으로 꼭 그리 말할 수 있는 것은 아니다. 또한 제1종 오류를 범할 확률(유의수준, α)을 줄이면 제2종 오류를 범할 확률(β)이 올라가게 된다.

따라서 가설검정을 수행할 때에는 어떤 유형의 오류가 더 심각한 결과를 초래할지 비교·반영하여 유의수준과 검정력을 결정하여야 할 것이다.

반응형

2. 영가설을 표현하는 두 가지 방법

반응형

2. 영가설을 표현하는 두 가지 방법


영가설은 어떻게 표현할 수 있을까? 이공계열은 정해진 약속대로 간략히 표현하기를 바란다. 하지만 인문계열은 그것이 내가 이해할 수 있는 하나의 문장으로 만들어지기를 바란다. 이런 생각의 차이가 갖는 간격은 생각보다 크다. 이제 그 간격을 조금 좁혀보자.
가설은 Hypothesis의 머릿글자를 따서 H로 표현된다. 그리고 영가설은 그 의미대로 0을 붙여 H0라고 쓴다. 그럼 대립가설은 어떻게 쓸까? 0이 없다는 뜻이니 있다는 뜻에서 1 또는 a로 표현한다. 즉, H1 또는 Ha이 된다.
이제 우리가 비교해 볼 두 가지 변수 A와 B는 어떤 관계가 있는지 알아보기 위해 가설을 세워야 한다. 그리고 앞서 확인한 것처럼 영가설(H0)을 세워보면 ‘A와 B는 차이가 없다.’가 된다. 그리고 이를 수식으로 표현하면 ‘A=B’가 되고, 조금 다르게 표현해보면 ‘A-B=0’으로 나타낼 수도 있다.

영가설과 대립가

예를 들어 “성별(A)에 따른 TV 시청 시간(B)의 차이”이라는 연구 주제가 있다고 하자. 이때의 영가설과 대립가설은 다음과 같다.

영가설과 대립가설

그렇다면 우리가 세운 영가설은 그것이 참인지 거짓인지 어떻게 판단할 수 있는 것일까? 즉 무엇(○○)을 비교하는 것일까?

반응형

1. 영가설(零假設, null hypothesis, 귀무가설)이란?

반응형

1. 영가설(零假設, null hypothesis, 귀무가설)이란?


학생들을 가르치다보면 영가설에 대해 어려워하는 이들을 많이 보게 된다. 이에 대해 정확히 이해하지 못하다보니 기껏 분석은 제대로 해놓고 결론을 틀리게 내리는 경우도 종종 보게 된다. 왜 이런 문제가 생기는 것일까?
사실 이건 조사연구와 데이터분석의 차이점 때문에 발생하는 문제이다. 조사연구는 이론적으로 만들어지는 개념정립을 바탕으로 풀어 설명한다면, 데이터분석은 숫자를 이용한 사실의 검정에 초점을 둔다. 
일반적으로 교재에서는 영가설을 “모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장”이라고 설명하는데, 이게 무슨 말인지 이해가 쉽지 않다. 특히 이공계가 아닌 인문계열 등에서는 이해했다고 하더라도 이를 인문학적으로 받아들이기도 한다. 이들에게 위 문장을 “모집단의 특성이 표본집단의 특성과 차이가 없을 것이라는 주장”이라고 바꾸어 표현할 수 있다고 어떻게 설명할 수 있을까?

하여 철저하게 데이터분석의 측면에서만 개념을 단순화하여 설명해보고자 한다. 영가설에서의 零은 숫자 0을 말한다. 그리고 영가설의 영어 표현인 null hypothesis의 null도 말 그대로 ‘없다’는 뜻이다. 즉 영가설이란 ‘차이가 없다’는 주장이라고 정의할 수 있다. 영가설의 다른 표현인 귀무가설 또한 마찬가지 의미이다. 귀무(歸無)란 ‘차이가 없다(無)는 사실을 전제하는(歸)’ 가설이 귀무가설인 것이다. 따라서 영가설은 항상 “A와 B는 차이가 없다.”와 같은 식으로 표현된다.

영가설은 "차이가 없다"는 가설이다.

이제 다시 돌아가 영가설의 짝을 이루는 대립가설(alternative hypothesis)은 이러한 영가설에 대해 반대쪽에 서는 가설을 말한다. 그런데 이를 다른 표현으로는 연구가설이라고 부르기도 한다. 하지만 여기서는 연구가설이라는 표현은 잠시 잊자. 영가설의 반대가 되는 가설이 대립가설이며, “차이가 있다”는 가설이라는 사실만 기억하자.
그리고 데이터분석을 통해 우리가 검정할 수 있는 것은 이런 영가설을 기각하는 것밖에 없다. 

반응형