[자료분석론] 정규분포곡선 그리기

정규분포곡선과 비대칭형분포곡선(좌/우로 기운 분포곡선)이 있습니다.
이것들을 그리는 것이 쉽지는 않은데요~
그에 관련하여 간단한 자료를 첨부합니다.

 


보다시피 중앙경향을 나타내는 평균과 중앙값, 최빈값은 위 그림과 같은 관계를 갖게 됩니다.
최빈값은 말그대로 빈도가 가장 많은 변수에 관한 내용이므로 가장 높은 곳에 위치하며, 중앙값은 최저값부터 최고값까지 순위를 정했을 때 정가운데(누적 50%)에 해당하는 값이 될 것입니다. 또한 평균은 위 정규분포곡선의 면적의 1/2이 되는 지점이 됩니다.

각 중앙경향의 관계는 양의 왜도분포곡선(왼쪽이 짧고 오른쪽이 긴 형태)는 오른쪽 끝부분에 다른 자료값보다 매우 큰 값이 존재하기 때문에 평균은 중앙값에 비하여 커지게 됩니다.
따라서 [ 최빈값 < 중앙값 < 평균 ]의 관계가 됩니다.

한편 음의 왜도분포곡선(왼쪽이 길고 오른쪽이 짧은 형태, 위 그림)의 경우는 왼쪽 끝부분에 다른 대부분의 자료값보다 매우 작은 값이 존재하기 때문에 평균은 중앙값에 비하여 작아지게 됩니다.
때문에 [ 평균 < 중앙값 < 최빈값 ]의 관계가 성립합니다.

한때 평균과 중앙값의 위치에 대해서 서로 바뀌어야 되는 것이 아닐까 생각해본 적이 있습니다.
그래서 무식한 방법으로 임의의 데이터 값을 만들어 몇번 시뮬레이션 해보았는데, 결국에는 위와 같은 결과가 나오는 것을 확인할 수 있었습니다. 혹시나 하는 마음에 임의로 데이터를 조작하면서까지 해보았는데... 안되더군요.
위 설명한 이유로 인해 그리 되는 것 같습니다.

update 2012. 06. 20. ----------------------------------
밑에 댓글에서 조언해주셔서 예외가 있음을 확인할 수 있었습니다.
아래는 바로 그 예외를 갖고 만들어 본 것입니다.
물론 필요한 몇가지 조건을 준용하지 않은 탓이긴 할겁니다만, 그 자체로도 흥미롭네요.

자세한 내용은 "양적 자료의 평균, 중앙값 그리고 최빈값에 대한 위치 비교 연구(조태경, 2006)"라는 자료를 한번 보세요.
국회도서관에서 전문을 PDF로 보실 수 있습니다.

 

 

예외.xls

-----------------------------------------------------


아래는 위 그림에서와 같은 정규분포곡선을 그리기 위한 엑셀 서식과 그래프입니다.
혹시 필요하실 듯하여 첨부합니다.

정규분포곡선.xls

  • sun 2012.05.16 14:28 ADDR 수정/삭제 답글

    너무 좋은 글인데 블로그 담기가 안되서 살짝 긁어 갑니다. 대신 님 사이트 링크할께요. 감사요.

  • BlogIcon 도연 道衍 2012.05.17 09:34 신고 ADDR 수정/삭제 답글

    얼마든지요~^^
    기본적으로 복사방지 및 마우스 오른쪽 금지를 걸어두지 않습니다.

  • oh 2012.06.19 00:53 ADDR 수정/삭제 답글

    0,0,1,1,2,2,2 의 경우 median<M<mode의 경우가 발생하더군요.
    항상 성립하지는 않는다는 논문도 찾아본 적이 있습니다.

    양적 자료의 평균, 중앙값 그리고 최빈값에 대한 위치 비교 연구 / 조태경 참고

  • BlogIcon 도연 道衍 2012.06.19 11:48 신고 ADDR 수정/삭제 답글

    oh님, 덧붙여주신 논문은 잘 보았습니다.
    좋은 정보 감사합니다.
    저도 왠지 가능할거 같았는데, 이런 방법이 있었군요 ^^