4. 가설의 검정의 전제조건

반응형

이제 가설을 검정해 볼 차례이다. 이때 한 가지 짚고 갈 것이 있다.
우리가 조사 대상 ‘전체’에 대해 설문 등을 실시하여 결과값들을 얻었다면, 그 결과는 그 자체로 사실이 된다. 예를 들어 인구주택총조사가 그렇다. 매 5년마다 대한민국 국민 전체를 대상으로 조사를 실시한다. 따라서 그 조사 결과는 그대로 사실이다.
하지만 많은 경우 전수를 조사하는 것은 비용과 시간이 많이 든다. 하여 우리는 대부분 표본(sample)을 뽑아서 그 결과를 분석한다. 이때는 당연히 이 표본이 전체 조사 대상(모집단)을 대표할 수 있다는 확신이 있어야 한다. 즉 표본조사의 결과값(모수 추정)이 전수조사의 결과값(모수)과 차이가 거의 없을 것을 전제한다.

가설 검정은 표본이 모집단을 대표할 수 있다는 확신을 전제한다.
모집단과 표본집단

여기서 등장하는 용어들은 모집단을 대상으로 하는가, 표본집단을 대상으로 하는가에 따라 약어 기호 표시들이 조금씩 다르다. 만일 앞선 전제를 충족하였다면 굳이 이 둘을 구분할 필요는 없다.

다시 돌아와 전제조건인 표본의 대표성 문제는 제대로 된 표본추출을 통해 해결이 된다. 연구자들은 표본이 모수를 정확히 추정할 수 있도록 하기 위해 표본을 뽑는(추출) 방법들에 대해 고민해왔고, 이런 표본추출방법은 확률표본추출과 비확률표본추출이 있다. 이 둘의 차이점은 딱 하나이다. 모집단의 구성원이 표본으로 선택될 확률이 동등하면 확률표본추출이라하고, 그렇지 않은 경우를 비확률표본추출이라 한다. 

모집단을 정확히 추정하기 위해서는 표본이 대표성을 가질 수 있도록 잘 추출해야한다.

 

반응형

3. 가설 검정은 ‘무엇’으로 하는가?

반응형

가설검정은 결국 비교를 통해 이루어진다. 그렇다면 무엇을 비교하게 되는 것일까? 가장 단순하게 대답해보자면 “평균”이라고 말할 수 있다. 뒤에서 다룰 검정방법들도 결국은 평균과 편차를 기반으로 만들어진 수식들이다.

가설의 검정은 곧 '평균'의 비교이다.

물론 이것이 전부인 것은 아니다. 평균을 구할 수 없는 경우도 많기 때문이다. 하지만 생각해보라. 여러분이 얘기하는 통계는 무엇으로 표현되는가? 단적으로 숫자라고 말할 수 있다. 숫자로 계산할 수 있는 것은 평균을 구할 수 있다. 즉 통계를 하겠다는 얘기는 곧 평균을 구하겠다는 말과 다르지 않다. 이를 ‘모수통계’라 한다. 
만일 우리가 정한 변수가 성별, 결혼 여부 등과 같이 숫자로 계산할 수 없는 것들이라면 ‘비모수통계’의 방법을 사용해야만 할 것이다.

반응형

2. 영가설을 표현하는 두 가지 방법

반응형

2. 영가설을 표현하는 두 가지 방법


영가설은 어떻게 표현할 수 있을까? 이공계열은 정해진 약속대로 간략히 표현하기를 바란다. 하지만 인문계열은 그것이 내가 이해할 수 있는 하나의 문장으로 만들어지기를 바란다. 이런 생각의 차이가 갖는 간격은 생각보다 크다. 이제 그 간격을 조금 좁혀보자.
가설은 Hypothesis의 머릿글자를 따서 H로 표현된다. 그리고 영가설은 그 의미대로 0을 붙여 H0라고 쓴다. 그럼 대립가설은 어떻게 쓸까? 0이 없다는 뜻이니 있다는 뜻에서 1 또는 a로 표현한다. 즉, H1 또는 Ha이 된다.
이제 우리가 비교해 볼 두 가지 변수 A와 B는 어떤 관계가 있는지 알아보기 위해 가설을 세워야 한다. 그리고 앞서 확인한 것처럼 영가설(H0)을 세워보면 ‘A와 B는 차이가 없다.’가 된다. 그리고 이를 수식으로 표현하면 ‘A=B’가 되고, 조금 다르게 표현해보면 ‘A-B=0’으로 나타낼 수도 있다.

영가설과 대립가

예를 들어 “성별(A)에 따른 TV 시청 시간(B)의 차이”이라는 연구 주제가 있다고 하자. 이때의 영가설과 대립가설은 다음과 같다.

영가설과 대립가설

그렇다면 우리가 세운 영가설은 그것이 참인지 거짓인지 어떻게 판단할 수 있는 것일까? 즉 무엇(○○)을 비교하는 것일까?

반응형

1. 영가설(零假設, null hypothesis, 귀무가설)이란?

반응형

1. 영가설(零假設, null hypothesis, 귀무가설)이란?


학생들을 가르치다보면 영가설에 대해 어려워하는 이들을 많이 보게 된다. 이에 대해 정확히 이해하지 못하다보니 기껏 분석은 제대로 해놓고 결론을 틀리게 내리는 경우도 종종 보게 된다. 왜 이런 문제가 생기는 것일까?
사실 이건 조사연구와 데이터분석의 차이점 때문에 발생하는 문제이다. 조사연구는 이론적으로 만들어지는 개념정립을 바탕으로 풀어 설명한다면, 데이터분석은 숫자를 이용한 사실의 검정에 초점을 둔다. 
일반적으로 교재에서는 영가설을 “모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장”이라고 설명하는데, 이게 무슨 말인지 이해가 쉽지 않다. 특히 이공계가 아닌 인문계열 등에서는 이해했다고 하더라도 이를 인문학적으로 받아들이기도 한다. 이들에게 위 문장을 “모집단의 특성이 표본집단의 특성과 차이가 없을 것이라는 주장”이라고 바꾸어 표현할 수 있다고 어떻게 설명할 수 있을까?

하여 철저하게 데이터분석의 측면에서만 개념을 단순화하여 설명해보고자 한다. 영가설에서의 零은 숫자 0을 말한다. 그리고 영가설의 영어 표현인 null hypothesis의 null도 말 그대로 ‘없다’는 뜻이다. 즉 영가설이란 ‘차이가 없다’는 주장이라고 정의할 수 있다. 영가설의 다른 표현인 귀무가설 또한 마찬가지 의미이다. 귀무(歸無)란 ‘차이가 없다(無)는 사실을 전제하는(歸)’ 가설이 귀무가설인 것이다. 따라서 영가설은 항상 “A와 B는 차이가 없다.”와 같은 식으로 표현된다.

영가설은 "차이가 없다"는 가설이다.

이제 다시 돌아가 영가설의 짝을 이루는 대립가설(alternative hypothesis)은 이러한 영가설에 대해 반대쪽에 서는 가설을 말한다. 그런데 이를 다른 표현으로는 연구가설이라고 부르기도 한다. 하지만 여기서는 연구가설이라는 표현은 잠시 잊자. 영가설의 반대가 되는 가설이 대립가설이며, “차이가 있다”는 가설이라는 사실만 기억하자.
그리고 데이터분석을 통해 우리가 검정할 수 있는 것은 이런 영가설을 기각하는 것밖에 없다. 

반응형

Ⅲ. 가설은 어떻게 검정되는가?

반응형

Ⅲ. 가설은 어떻게 검정되는가?
- 기본개념의 이해 -

 

자, 일련의 과정을 건너뛰고, 우리는 궁금한 질문에 대해 우선 답을 찾아보자. 도대체 내가 알고 싶은 연구주제는 어떻게 그 사실 여부를 확인할 수 있는 것일까? 물론 우린 사회조사를 얘기하고 있기 때문에 조사된 결과가 있을 것이고 이를 바탕으로 통계 프로그램을 활용해 결과를 확인하게 될 것이다.
그런데 한 가지 문제가 있다. 우리는 SPSS와 같은 통계 프로그램을 활용하면서 그것이 바로 결론까지 일사천리로 보여주었으면 하는 기대를 갖는다. 하지만 단적으로 말해 통계 프로그램은 계산기일 뿐이다. 즉 계산의 결과값은 바로 알려주지만 그것이 어떤 의미인지는 연구자가 직접 해석해야만 한다. 

예를 하나 들어 보자.

우리는 증감을 두 가지 방식으로 표현할 수 있다. 사전(A)-사후(B)하여 “1이 감소했다”고 말할 수도 있고, 사후(B)-사전(A)하여 “증감이 –1이 되었다”고 말할 수도 있다. 바꿔말해 분석을 어떤 방식으로 하였는지에 따라 결과값은 다르게 나타날 수 있으나 의미는 동일하다. 그리고 그 결과를 해석해 문장으로 만들어내는 것은 연구자의 몫이 된다.

이처럼 우리는 알고 싶은 것을 질문으로 만들어 컴퓨터(통계 프로그램)에게 물어봐야한다. 그런데 컴퓨터는 “예/아니오”로 밖에 답할 수 없다. 엄밀히 말하면, “‘아니오’일 확률이 몇 %입니다.”가 될 것이다. 
 그렇다면 어떤 질문을 던져야 할까? 컴퓨터 통계 프로그램에게 던지는 질문을 우리는 영가설이라고 하고, 영가설의 형태는 “차이가 없다”라는 형식으로 정해져있다.
아마도 연구자는 “성별에 따른 TV 시청 시간에는 평균의 차이가 없다.”는 영가설을 만들 수 있을 것이다. 이 질문에 대해 컴퓨터는 영가설을 기각할 수 있는지 없는지를 알려줄 것이다.

연구자의 질문 → 영가설 설정 → 영가설 입증 → 결과의 해석

그렇다면 도대체 영가설은 또 뭐란 말인가?

 

반응형