2. 분석방법을 선택하는 두 가지 기준, 두 번째: 변수의 속성

반응형

모수 통계는 평균에 기반한다. 그리고 당연한 얘기겠지만, 분석에 이용되는 자료(변수)는 평균을 구할 수 있는 형태여야만 한다. 즉 변수의 속성이 등간 또는 비율척도여야 한다. 만일 명목 또는 서열척도라면 어떻게 해야할까? 명목척도라면 빈도를, 서열척도라면 중앙값(중위수)을 기준으로 분석하는데, 이를 비모수 통계라 한다. 

변수의 속성에 따른 모수통계와 비모수통계 구분

그리고 모수통계와 비모수통계는 다음이 서로 짝을 이룬다.

모수통계와 비모수통계의 대응

 

 

반응형

나. 등분산 검정

반응형

나. 등분산 검정
서로 다른(독립) 두 집단을 비교하고자 한다면, 해당 집단들 간의 분산이 동일한지를 검토해야한다. 이를 등분산 검정이라 한다. 그리고 등분산성은 Levene의 등분산 검정을 통해 확인할 수 있다. 독립표본 t 검정의 경우, 그 결과에 따라 등분산 가정 t 검정을 할지 이분산 가정 t 검정을 할지 결정하게 된다.

등분산 검정

등분산 검정 결과 p>.05이면 등분산을 가정한다. SPSS의 경우 독립표본 t 검정을 실시하면 등분산을 가정했을 때와 이분산을 가정했을 때의 결과를 모두 보여준다. 이때 연구자는 Levene's test 결과를 바탕으로 어떤 값을 선택할지 결정해야한다.

 

 

 

반응형

가. 정규성 검정

반응형

모수통계의 방법은 모집단의 정규분포를 가정한다. 즉 정규성 여부가 가정되어야만 모수통계를 사용할 수 있다. 이를 위해 Kolmogorov-Smirnov(콜모고로프-스미르노프) 검정과 Shapiro-Wilk(샤피로-윌크) 검정을 활용한다. Kolmogorov-Smirnov test는 n≥30인 경우, Shapiro-Wilk test는 n<30인 경우에 사용하며, 이때 통계량의 p value가 p>.05이면, 정규성을 가정한다.

정규성 검정 방법

만일 p<.05이면, 정규성을 가정할 수 없기 때문에 비모수 검정을 사용해야한다.
다만, 이런 검정방법은 매우 엄밀성을 강조하기 때문에 그 활용에는 제약을 받는다. 또다른 방법으로는 왜도와 첨도를 통해 정규성을 가정하는 방법이 있다. 기술통계를 통해 왜도의 절댓값이 2보다 작고 첨도의 절댓값이 7보다 작으면 정규성을 가정하는 것이다.

SPSS를 활용한 정규성 검정은 “데이터 탐색”메뉴에서 찾을 수 있다.
분석 > 기술통계량(E) > 데이터 탐색(E) > (도표) > ☑ 검정과 함께 정규성 도표(O)

 

정규성 검정 결과

만일 표본의 수가 30 이상이면, Komogorov-Smirnov 검정을, 30 미만이면 Shapiro-Wilk 검정의 통계량과 유의확률을 확인하면 된다.
이때, 유의확률 p>.05이면 정규성을 가정한다. 위 예시에서는 표본의 수(n)가 25명이기 때문에 Shapiro-Wilk 검정 결과를 확인해야하며, 통계량 W=.944(p>.05)로 정규성을 가정한다.

한편 왜도와 첨도는 기술통계의 옵션에서 확인할 수 있다.
분석 > 기술통계(D) > (옵션) > 분포에서 ☑ 첨도(K), ☑ 왜도(W) 체크

 

 

 

 

 

반응형

1. 분석방법을 선택하는 두 가지 기준, 첫 번째: 모수통계, 비모수통계

반응형

분석방법 선택을 위한 흐름도

 

앞서 평균을 구할 수 있으면 모수통계, 없으면 비모수통계라 언급한 바 있다. 보다 엄밀히 말해보자면, 모집단의 분포가 정규분포이고와 모수(평균, 표준편차)를 알고 있다는 가정하에 분석하는 방법을 모수통계라 한다. 

반응형

Ⅳ. 어떤 분석방법을 활용할 것인가?

반응형

Ⅳ. 어떤 분석방법을 활용할 것인가?
- 데이터 분석 방법의 선택 -

 

지금까지 우리는 데이터 분석의 결과로 얻게되는 통계량과 유의확률 중 유의확률을 통해 p<.05이면 영가설을 기각할 수 있다는 사실을 알게되었다. 그렇다면 통계량(statistic)이라는 것은 무엇이고 이 값들은 무슨 방법으로 확인할 수 있단 말인가?
가장 기본적인 방법은 바로 ‘평균’을 비교하는 것에서 출발한다.
여기에 한 집단이 있다. 그 집단을 한마디로 표현하고자 한다면 우린 어떤 것을 대표로 내세울 수 있을까? 가장 많은 빈도로 나타나는 것(최빈값, mode)을 대푯값으로 내세울 수도 있을 것이고, 1번부터 끝번까지 줄을 세웠을 때 제일 가운데 있는 값(중앙값/중위수, median)을 얘기할 수도 있을 것이다. 혹은 평균(mean)을 구할 수 있다면 그것도 나쁘지 않다. 이같은 최빈값, 중앙값, 평균값을 우리는 중앙경향(central tendency) 또는 집중경향이라고 부른다. 이들 값을 구하는 방법 또한 분석방법이고, 여기서 얻어지는 값들은 통계량이다. 
두 집단 이상을 비교해보고자 할 때에도 마찬가지이다. 일반적이라면 평균을 비교함으로써 두 집단간의 차이를 확인할 수 있을 것이다. 다만 하나 덧붙여진다면, 그 차이가 ‘유의미한’ 차이인지를 확인해야한다.
예를 들어, 평균 수학점수가 평균 80점인 반이 있다. 이반에서 두 번째 시험을 치뤘을 때 성적이 평균 80.5점이 늘어났다. 이 평균 0.5점은 유의미한 성적의 변화인가, 아닌가? 정답은 그럴수도 있고, 아닐 수도 있다. 모든 구성원이 80점 언저리에 점수가 있었고, 그들 모두가 일괄적으로 0.5점의 상향이 있었다면, 아마도 우리는 그 결과가 유의미한 변화라 말할 수 있을 것이다. 하지만 1/3이 성적이 1점 정도 오르고, 1/3은 변화가 없으며, 나머지 1/3은 오히려 0.5점의 점수가 떨어졌다면, 우리는 이 0.5점의 성적 향상을 유의미하다고 말하기 어려울 것이다.
이러한 통계적 유의미성 여부는 결국 p value와 통계량을 통해 확인할 수 있다. 그리고 이런 통계량을 구하는 방법은 수많은 학자들에 의해 수식으로 만들어져 널리 알려져있다. 평균을 활용한 검정방법을 선택하는 기준과 절차는 다음과 같다.

반응형