Ⅳ. 어떤 분석방법을 활용할 것인가?

반응형

Ⅳ. 어떤 분석방법을 활용할 것인가?
- 데이터 분석 방법의 선택 -

 

지금까지 우리는 데이터 분석의 결과로 얻게되는 통계량과 유의확률 중 유의확률을 통해 p<.05이면 영가설을 기각할 수 있다는 사실을 알게되었다. 그렇다면 통계량(statistic)이라는 것은 무엇이고 이 값들은 무슨 방법으로 확인할 수 있단 말인가?
가장 기본적인 방법은 바로 ‘평균’을 비교하는 것에서 출발한다.
여기에 한 집단이 있다. 그 집단을 한마디로 표현하고자 한다면 우린 어떤 것을 대표로 내세울 수 있을까? 가장 많은 빈도로 나타나는 것(최빈값, mode)을 대푯값으로 내세울 수도 있을 것이고, 1번부터 끝번까지 줄을 세웠을 때 제일 가운데 있는 값(중앙값/중위수, median)을 얘기할 수도 있을 것이다. 혹은 평균(mean)을 구할 수 있다면 그것도 나쁘지 않다. 이같은 최빈값, 중앙값, 평균값을 우리는 중앙경향(central tendency) 또는 집중경향이라고 부른다. 이들 값을 구하는 방법 또한 분석방법이고, 여기서 얻어지는 값들은 통계량이다. 
두 집단 이상을 비교해보고자 할 때에도 마찬가지이다. 일반적이라면 평균을 비교함으로써 두 집단간의 차이를 확인할 수 있을 것이다. 다만 하나 덧붙여진다면, 그 차이가 ‘유의미한’ 차이인지를 확인해야한다.
예를 들어, 평균 수학점수가 평균 80점인 반이 있다. 이반에서 두 번째 시험을 치뤘을 때 성적이 평균 80.5점이 늘어났다. 이 평균 0.5점은 유의미한 성적의 변화인가, 아닌가? 정답은 그럴수도 있고, 아닐 수도 있다. 모든 구성원이 80점 언저리에 점수가 있었고, 그들 모두가 일괄적으로 0.5점의 상향이 있었다면, 아마도 우리는 그 결과가 유의미한 변화라 말할 수 있을 것이다. 하지만 1/3이 성적이 1점 정도 오르고, 1/3은 변화가 없으며, 나머지 1/3은 오히려 0.5점의 점수가 떨어졌다면, 우리는 이 0.5점의 성적 향상을 유의미하다고 말하기 어려울 것이다.
이러한 통계적 유의미성 여부는 결국 p value와 통계량을 통해 확인할 수 있다. 그리고 이런 통계량을 구하는 방법은 수많은 학자들에 의해 수식으로 만들어져 널리 알려져있다. 평균을 활용한 검정방법을 선택하는 기준과 절차는 다음과 같다.

반응형