3. 가설 검정은 ‘무엇’으로 하는가?

반응형

가설검정은 결국 비교를 통해 이루어진다. 그렇다면 무엇을 비교하게 되는 것일까? 가장 단순하게 대답해보자면 “평균”이라고 말할 수 있다. 뒤에서 다룰 검정방법들도 결국은 평균과 편차를 기반으로 만들어진 수식들이다.

가설의 검정은 곧 '평균'의 비교이다.

물론 이것이 전부인 것은 아니다. 평균을 구할 수 없는 경우도 많기 때문이다. 하지만 생각해보라. 여러분이 얘기하는 통계는 무엇으로 표현되는가? 단적으로 숫자라고 말할 수 있다. 숫자로 계산할 수 있는 것은 평균을 구할 수 있다. 즉 통계를 하겠다는 얘기는 곧 평균을 구하겠다는 말과 다르지 않다. 이를 ‘모수통계’라 한다. 
만일 우리가 정한 변수가 성별, 결혼 여부 등과 같이 숫자로 계산할 수 없는 것들이라면 ‘비모수통계’의 방법을 사용해야만 할 것이다.

반응형

2. 영가설을 표현하는 두 가지 방법

반응형

2. 영가설을 표현하는 두 가지 방법


영가설은 어떻게 표현할 수 있을까? 이공계열은 정해진 약속대로 간략히 표현하기를 바란다. 하지만 인문계열은 그것이 내가 이해할 수 있는 하나의 문장으로 만들어지기를 바란다. 이런 생각의 차이가 갖는 간격은 생각보다 크다. 이제 그 간격을 조금 좁혀보자.
가설은 Hypothesis의 머릿글자를 따서 H로 표현된다. 그리고 영가설은 그 의미대로 0을 붙여 H0라고 쓴다. 그럼 대립가설은 어떻게 쓸까? 0이 없다는 뜻이니 있다는 뜻에서 1 또는 a로 표현한다. 즉, H1 또는 Ha이 된다.
이제 우리가 비교해 볼 두 가지 변수 A와 B는 어떤 관계가 있는지 알아보기 위해 가설을 세워야 한다. 그리고 앞서 확인한 것처럼 영가설(H0)을 세워보면 ‘A와 B는 차이가 없다.’가 된다. 그리고 이를 수식으로 표현하면 ‘A=B’가 되고, 조금 다르게 표현해보면 ‘A-B=0’으로 나타낼 수도 있다.

영가설과 대립가

예를 들어 “성별(A)에 따른 TV 시청 시간(B)의 차이”이라는 연구 주제가 있다고 하자. 이때의 영가설과 대립가설은 다음과 같다.

영가설과 대립가설

그렇다면 우리가 세운 영가설은 그것이 참인지 거짓인지 어떻게 판단할 수 있는 것일까? 즉 무엇(○○)을 비교하는 것일까?

반응형

1. 영가설(零假設, null hypothesis, 귀무가설)이란?

반응형

1. 영가설(零假設, null hypothesis, 귀무가설)이란?


학생들을 가르치다보면 영가설에 대해 어려워하는 이들을 많이 보게 된다. 이에 대해 정확히 이해하지 못하다보니 기껏 분석은 제대로 해놓고 결론을 틀리게 내리는 경우도 종종 보게 된다. 왜 이런 문제가 생기는 것일까?
사실 이건 조사연구와 데이터분석의 차이점 때문에 발생하는 문제이다. 조사연구는 이론적으로 만들어지는 개념정립을 바탕으로 풀어 설명한다면, 데이터분석은 숫자를 이용한 사실의 검정에 초점을 둔다. 
일반적으로 교재에서는 영가설을 “모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장”이라고 설명하는데, 이게 무슨 말인지 이해가 쉽지 않다. 특히 이공계가 아닌 인문계열 등에서는 이해했다고 하더라도 이를 인문학적으로 받아들이기도 한다. 이들에게 위 문장을 “모집단의 특성이 표본집단의 특성과 차이가 없을 것이라는 주장”이라고 바꾸어 표현할 수 있다고 어떻게 설명할 수 있을까?

하여 철저하게 데이터분석의 측면에서만 개념을 단순화하여 설명해보고자 한다. 영가설에서의 零은 숫자 0을 말한다. 그리고 영가설의 영어 표현인 null hypothesis의 null도 말 그대로 ‘없다’는 뜻이다. 즉 영가설이란 ‘차이가 없다’는 주장이라고 정의할 수 있다. 영가설의 다른 표현인 귀무가설 또한 마찬가지 의미이다. 귀무(歸無)란 ‘차이가 없다(無)는 사실을 전제하는(歸)’ 가설이 귀무가설인 것이다. 따라서 영가설은 항상 “A와 B는 차이가 없다.”와 같은 식으로 표현된다.

영가설은 "차이가 없다"는 가설이다.

이제 다시 돌아가 영가설의 짝을 이루는 대립가설(alternative hypothesis)은 이러한 영가설에 대해 반대쪽에 서는 가설을 말한다. 그런데 이를 다른 표현으로는 연구가설이라고 부르기도 한다. 하지만 여기서는 연구가설이라는 표현은 잠시 잊자. 영가설의 반대가 되는 가설이 대립가설이며, “차이가 있다”는 가설이라는 사실만 기억하자.
그리고 데이터분석을 통해 우리가 검정할 수 있는 것은 이런 영가설을 기각하는 것밖에 없다. 

반응형

Ⅲ. 가설은 어떻게 검정되는가?

반응형

Ⅲ. 가설은 어떻게 검정되는가?
- 기본개념의 이해 -

 

자, 일련의 과정을 건너뛰고, 우리는 궁금한 질문에 대해 우선 답을 찾아보자. 도대체 내가 알고 싶은 연구주제는 어떻게 그 사실 여부를 확인할 수 있는 것일까? 물론 우린 사회조사를 얘기하고 있기 때문에 조사된 결과가 있을 것이고 이를 바탕으로 통계 프로그램을 활용해 결과를 확인하게 될 것이다.
그런데 한 가지 문제가 있다. 우리는 SPSS와 같은 통계 프로그램을 활용하면서 그것이 바로 결론까지 일사천리로 보여주었으면 하는 기대를 갖는다. 하지만 단적으로 말해 통계 프로그램은 계산기일 뿐이다. 즉 계산의 결과값은 바로 알려주지만 그것이 어떤 의미인지는 연구자가 직접 해석해야만 한다. 

예를 하나 들어 보자.

우리는 증감을 두 가지 방식으로 표현할 수 있다. 사전(A)-사후(B)하여 “1이 감소했다”고 말할 수도 있고, 사후(B)-사전(A)하여 “증감이 –1이 되었다”고 말할 수도 있다. 바꿔말해 분석을 어떤 방식으로 하였는지에 따라 결과값은 다르게 나타날 수 있으나 의미는 동일하다. 그리고 그 결과를 해석해 문장으로 만들어내는 것은 연구자의 몫이 된다.

이처럼 우리는 알고 싶은 것을 질문으로 만들어 컴퓨터(통계 프로그램)에게 물어봐야한다. 그런데 컴퓨터는 “예/아니오”로 밖에 답할 수 없다. 엄밀히 말하면, “‘아니오’일 확률이 몇 %입니다.”가 될 것이다. 
 그렇다면 어떤 질문을 던져야 할까? 컴퓨터 통계 프로그램에게 던지는 질문을 우리는 영가설이라고 하고, 영가설의 형태는 “차이가 없다”라는 형식으로 정해져있다.
아마도 연구자는 “성별에 따른 TV 시청 시간에는 평균의 차이가 없다.”는 영가설을 만들 수 있을 것이다. 이 질문에 대해 컴퓨터는 영가설을 기각할 수 있는지 없는지를 알려줄 것이다.

연구자의 질문 → 영가설 설정 → 영가설 입증 → 결과의 해석

그렇다면 도대체 영가설은 또 뭐란 말인가?

 

반응형

Ⅱ. 사회조사와 데이터분석 시나리오

반응형

Ⅱ. 사회조사와 데이터분석 시나리오

 

우리는 실천 현장에서, 학계에서 논문을 쓰기 위해 등의 이유로 통계를 사용하게 된다. 이런 상황을 가정하여 그것이 어떻게 진행이 될지를 한번 상상해 보자. 아마도 다음과 같은 순서를 떠올릴 수 있을 것이다.

일반적 진행 순서

예를 들어서 살펴보자. 
연구자는 ‘부모의 양육태도’가 ‘청소년의 가출’에 유의미한 영향을 미칠 것이라고 생각한다(연구할 주제). 그래서 ‘부모의 양육태도와 청소년의 가출은 상관관계가 있다.’는 가설을 세웠다.
이제 해야할 일은 부모의 양육태도와 관련하여 다른 학자들은 어떻게 정의했는가? 공통된 입장은 무엇인가? 다른 의견은 없는가? 기존에 부모의 양육태도는 어떤 하위 개념들로 구성되어 있는가? 등을 확인해보는 일이다(이론적 배경 검토). 예를 들어 부모의 양육태도를 Baumrind는 허용적/방임적, 민주적/독재적이라는 4가지 양육태도로 구분하고 있다. 
그리고 이를 측정이 가능한 개념으로 변환(변수 정의)해야하는데, 앞선 이론적 배경을 바탕으로 기존에는 어떻게 측정하였는지, 그리고 나는 어떻게 생각하는지, 그리고 그 생각은 타당한지를 검토해야한다. 즉 양육태도가 허용적인지 방임적인지는 어떤 질문을 통해 알 수 있는 것일까? 그것이 변수가 될 것이다. 하지만 걱정할 필요는 없다. 이미 많은 연구자들이 개념과 측정방법을 정립해 두었고, 우리는 이를 차용하면 된다.
이러한 생각을 담아 설문지를 구성하고, 실제 조사를 실시한 다음, 얻어진 결과들을 컴퓨터 프로그램이 받아들일 수 있는 방식으로 변환(코딩)한다.
하지만 설문응답이 늘 성실한 것은 아니다. 5점 척도 설문에 모두 3번으로만 체크했다든지, 대부분의 질문에 응답을 하지 않았다든지 한다면, 이것이 신뢰할 수 있는 데이터인지를 연구자는 판단해야한다(이상값 처리). 우리는 이상값이라는 것을 어떻게 판단할 수 있을까? 이에 대해서는 중급통계 이상에서 다루게 된다.
 또한 사람이 하는지라 설문지는 맞게 수렴되었는데, 코딩해서 입력하는 과정에서 실수가 있을 수도 있을 것이다. 
이마저 끝이 났다면, 이제 통계 프로그램을 활용해 데이터를 분석하고, 나온 결과값이 어떤 의미인지 해석해서 보고서로 정리하게 될 것이다.

만일 당신이 사회조사를 통해 연구를 진행하고자 한다면, 위 일련의 과정에서 필요한 개념들을 하나하나 익혀갈 필요가 있다. 그리고 많은 교재들은 위 순서대로 목차가 구성되어 있다. 물론 우리는 조금 다른 방식으로 이야기를 풀어가고자 한다.

반응형