[사회복지자료분석론] 상관관계 분석

상관관계 분석

 

1) 상관관계의 성격
① 상관관계는 인과관계가 아닐 수도 있다. → 회귀분석 필요
② 상관관계는 대체로 음의 방향 또는 음의 방향과 같은 관계의 방향이 있다.

 

2) 상관관계 분석

① 등간/비율 척도의 경우는 피어슨 적률상관을 실시합니다.

② 서열 척도의 경우는 스피어만 로 또는 캔달타우b를 실시합니다.

 

3) 상관관계 계수에 따른 해석

± 0.2 미만       : 상관관계가 거의 없다

± 0.2~0.4 미만 : 상관관계가 있으나 낮다

± 0.4~0.7 미만 : 상관관계가 다소 높다

± 0.7~0.9 미만 : 상관관계가 높다

± 0.9 이상       : 상관관계가 아주 높다

 

4) 예제 해석 

※ 참고 : 심리적 이웃관계는 역문항으로 "① 매우 친하다 ~ ⑤ 전혀 친하지 않다" 입니다. 한편 이 척도는 서열척도이나 여기서는 해석을 위해 등간척도라고 가정합니다.

 

(해석)
연령과 심리적 이웃관계에 대한 상관분석 결과 p<0.01에서 Pearson's r이 -.230으로 음의 낮은 상관관계를 보이고 있음을 알 수 있습니다. 즉 연령이 높아질수록 심리적 이웃관계가 친해지는 경향이 있다고 해석할 수 있습니다.
덧붙여 사례의 수(N)이 커지면 커질수록 유의도는 높아지지만, 그것이 상관관계를 높게 하지는 않습니다.

 

 

상관관계.hwp

 

 


 

[사회복지자료분석론] 카이제곱(χ²)

분포의 차이 : 카이제곱 (χ²)

 

■ 확인사항
1. 자유도가 1인 경우
전체사례수가 30보다 크면서 각 셀(cell)의 빈도가 5 이상일 때 적용 가능

 

2. 자유도가 1보다 큰 경우
사례수가 30보다 크면서 5미만의 기대빈도의 셀이 전체의 모든 칸의 20%보다 적고, 모든 셀에 1.00이상의 기대빈도가 있다면 척도에 관계없이 사용 가능

 

카이제곱 분포표를 토대로 자유도와 비교하여 분포차이의 여부를 봅니다.
해당 자유도와 유의수준에서의 카이제곱 값보다 크다면 분포차이가 있다고 봅니다.
이때 p값을 표시해주는 것은 기본입니다.

 

 

(해석)
위 예제에서 우리는 Pearson Chi-Square(χ², 이하 카이제곱)의 값만 읽는 것으로 합니다.
우선 아래에서 N이 604로 30보다 크면서, a에서 언급한 것처럼 기대빈도가 5보다 작은 셀이 1개 이며 이는 전체 셀의 10%에 해당하여 20%보다 적기 때문에 확인사항에서 언급했던 기본적인 활용의 조건은 충족합니다.
이에 카이제곱의 값은 21.591이면서, 자유도(df)가 4이고, 양방향 검정(양측 검정)에 따른 유의도는 0.000으로 바꿔 표현하면 p<0.001이기 때문에 두 변수 간에는 분포의 관련성이 있다고 볼 수 있습니다.
이때 자유도와 양측검정의 유의도에 대한 카이제곱분포표를 살펴보면, 18.47이 나옵니다. 따라서 카이제곱 값(21.591)이 분포표의 값(18.47)보다 크기 때문에 분포에 있어 관계가 있다고 해석할 수 있습니다.

 

 

카이제곱.hwp

 

한편, 자유도와 양측검정의 유의도만 가지고 분포의 관련성 여부를 파악하려면, 카이제곱 분포표나 엑셀의 CHIINV 함수를 사용하시면 됩니다. 위 예제의 경우, 분포값은 20.00(단측검정의 경우는 18.47)이 나옵니다. 따라서 카이제곱 값(21.591)이 분포표의 값(20.00)보다 크기 때문에 분포에 있어 관계가 있다고 해석할 수도 있습니다.

첨부한 엑셀을 참조하세요~

 

단, 단측검정과 양측검정에 대한 해석은 제가 참조한 교재에서는 설명이 제대로 되어 있지 않았습니다.

때문에 틀린 점이 있을 수도 있음을 미리 밝혀둡니다.

 

카이제곱 교차분포표.xls

[사회복지자료분석론] 유의확률과 유의수준을 통해 본 1종오류

사회복지조사론/자료분석론에서 사용되는 유의확률과 유의수준을 통해 1종 오류에 대하 간단히 정리해 보았다.

실은 용어가 비슷하고 또 같은 의미인데도 다른 표현을 쓰는 등 헷갈리는게 많은 것이 사실이다.

 

그중 가장 헷갈리는 1종 오류와 2종 오류를 유의수준, 유의확률을 통해서 정리해 보았다.

 

 

유의확률 : 1종 오류를 일으킬 확률

→ 유의확률이란 결국 대부분 참인데 "우연" 등이 개입되어 참의 결과가 나오지 않을 확률을 얘기한다.

    통상 우리는 95%의 신뢰수준에 동의하고 있으며, 이를 p<0.05라고 표시하고 있다.

 

○ 유의수준(α) : 1종 오류를 범할 수 있는 최대허용치

→ 한편, 유의수준은 유의확률과 크게 다르지 않지만 그 최대값이 얼마냐로 구분할 수 있을 것이다.

    자료분석을 실시해보면, 딱 떨어지는 어떤 값으로 표기되어 나온다.

    즉, 허용할 수 있는 오류의 최대치라고 보면 될 것이며, 오류의 최대치인 유의수준은 유의확률보다 커야만 영가설을 기각할 수 있고, 곧 그것은 내가 원하던 연구가설을 채택한다는 것과 같은 의미라 볼 수 있다.

 

○ 1종 오류 : 귀무가설이 참인데, 그것을 기각하는 경우

→ 지금까지 언급했던 모든 유의수준, 유의확률은 곧 1종 오류와 관련이 있다.

    내가 원하는 연구가설은 채택되어야 한다. 하지만 반드시 그렇게 되는 것은 아니기에 우리는 1종 오류에 주목해야한다. 곧 실제로는 참이 아님에도, 내가 억지로 우겨서 기각해야하는 것을 채택하고 있지는 않을까? 다시금 귀무가설의 입장에서 본다면, 귀무가설을 채택해야함에도 기각해서 본질을 흐리게 되었을 확률 그리고 그 결과가 바로 1종 오류이다.


○ 2종 오류 : 연구가설이 참인데, 그것을 기각하는 경우

→ 2종 오류는 바로 1종 오류의 반대개념으로 이해하면 될것이다.

 

<결론>

▶ 유의확률 < 유의수준 → 귀무가설 기각, 연구가설 채택 : 유의미하다.

→ 이때 만일 귀무가설을 채택해야함에도 잘못하여 기각하였다면 이는 1종 오류이다.


유의확률 > 유의수준 → 귀무가설 채택, 연구가설 기각 : 관계없다.

→ 반대로 오류가 있을 확률이 허용치를 넘어선다면 우린 당연히 귀무가설을 채택(연구가설 기각, 관계가 없음)해야하는데, 그렇지 못했다면 우리는 2종 오류를 범하게 되는 것이다.

 

[자료분석론] 다중응답의 분석 : SPSS

SPSS를 활용한 사회복지조사분석을 실시하면서 늘 문제가 되거나 가장 많은 질문을 받게 되는 항목들이 아래의 세가지이다.
입력오류를 찾는법과 그로 인한 결측값의 처리문제, 마지막으로 가장 관심도가 높은 다중응답에 대한 처리와 분석이다.

첨부된 한글 파일은 아래 내용을 그대로 정리한 것이다.



1. 입력오류
코딩(변수정의, 입력)이 모두 끝났다면, 이제 입력의 오류를 찾아야 한다. 잘못된 입력 데이터는 통계의 정확도를 떨어뜨리게 되는데, 수백개나 되는 입력값들을 하나하나 설문지와 대조해 볼 수는 없다.

▶ 입력오류 찾아 고치기 : 모든 항목에 대한 빈도분석 실시
→ 빈도분석의 결과에서 정의하지 않은 변수에 대한 입력값이 있다면 그것은 코딩이 잘못된 것이라 볼 수 있다. 따라서 코딩이 끝나고나면 모든 항목에 대해 빈도분석을 실시하여, 코딩에러를 찾아고치도록 한다.

2. 결측값 (무응답, Missing)
통계에서는 경우에 따라 무응답도 중요한 의미를 가지는 경우가 있다. 이러한 결측값에 대해 특별한 의미를 부여하고자 한다면 변수를 정의해 두는 것이 더욱 좋다.

1) 단순한 무응답의 경우 : 입력값을 부여하지 않는다.
2) 의미있는 무응답의 경우 : 0 또는 999를 입력
3) 결측값의 처리 : 기본값은 No Missing Values로 되어 있다.
→ Discrete Missing Values(이산형 결측값)을 체크하고 0을 입력해 준다.

3. 다중응답의 분석
다중응답에 대해서는 변수를 어떻게 정의내렸느냐에 따라 분석방법이 달라진다. 범주형과 이산형이 있다. 또한 우선순위를 부여하는 경우에도 달라지며 이때는 별도의 가중치를 부여토록 한다.

예) Q5. 귀하가 좋아하는 찌개는 무엇입니까? 두가지만 선택해주세요.
       ① 김치찌개 ② 된장찌개 ③ 순두부찌개 ④ 기타
        → 위 설문에 응답자가 ①과 ③을 응답한 경우

 [코딩방법 1 범주형]
  Q5-1 귀하가 좋아하는 ~~) ① 김치찌개
  Q5-2 귀하가 좋아하는 ~~) ③ 순두부찌개

[코딩방법 2 이분형 : Yes/No]
  Q5-1 김치찌개)    ① YES   
  Q5-2 된장찌개)    ② NO
  Q5-3 순두부찌개) ① YES    
  Q5-4 기타)          ② NO


1) 범주형 자료의 분석
범주형의 경우 우선 변수군을 정의(Val_1-1, Val_1-2, …)하여 새로운 변수를 생성(Val_All)한 다음 분석한다.

가. 변수군 정의
Analyze(분석) > Multiple Response(다중응답) > Define Sets(변수군 정의)
다중응답으로 처리할 변수를 선택한 후, Categories(범주형)에서 변수의 범위(Range)를 정하고, 새변수의 이름과 설명을 입력/추가(Add)합니다.

나. 다중응답 빈도분석의 실행
Analyze(분석) > Multiple Response(다중응답) > Frequencies(빈도분석)
앞서 새롭게 정의한 변수를 선택하고 분석을 실행합니다.

2) 이분형 자료의 분석
이분형의 경우는 하나의 분항을 각각의 변수값(Values)에 대응하는 Yes/No의 모든 설문지를 생성하고 그 내용에 대해 분석을 실시한다.
여기서는 Yes는 1, No는 2라고 정의하였다고 보고 설명합니다.

가. 변수군 정의
Analyze(분석) > Multiple Response(다중응답) > Define Sets(변수군 정의)
다중응답으로 처리할 변수들을 선택한 후, Dichotomies Counted value에서 Yes라고 정의한 변수값, 즉 1을 적어줍니다. 이후 새변수의 이름과 설명을 입력/추가(Add)합니다.

나. 다중응답 빈도분석의 실행
Analyze(분석) > Multiple Response(다중응답) > Frequencies(빈도분석)
앞서 새롭게 정의한 변수를 선택하고 분석을 실행합니다.

※ 개인적으로 판단컨데, “두개만 선택하시오”의 경우에는 범주형이, “모두 선택하시오”라고 질문한 경우 이분형이 코딩과 분석에 용이할 것으로 생각됩니다.

3) 우선순위가 있는 경우
우선 순위가 부여된 경우에는 그 순위에 따라 별도의 가중치를 부여해야합니다. 이 가중치는 조사자의 관점에 따라 달라질 수 있으며, 그에 따라 가중치 부여를 한 후 범주형 또는 이산형으로 분석을 다시 실시토록 합니다.


[참고자료] 마우스로 잡는 SPSS for Windows v10.0, 우수명, 인간과 복지, 2003

사회복지 자료분석론 1부 확률과 분포

사회복지자료분석론 강의자료입니다.
1부 확률과 분포에서 주요한 용어의 개념을 정리하였습니다.

[교재] 사회복지자료분석의 기초원리



클릭하여 확대해서 보세요



내용을 보시려면 마인드맵 프로그램인 FreeMind가 설치되어 있어야 합니다.

[마인드맵 프로그램 freemind] 다운받기
※ 아래 링크는 WindowsXP 기반환경의 프로그램입니다.

[설치 프로그램] http://downloads.sourceforge.net/freemind/FreeMind-Windows-Installer-0.8.1-min.exe?download

[자바 프로그램] http://javadl.sun.com/webapps/download/AutoDL?BundleId=27988

※ FreeMind는 자바가 설치되어 있어야만 구동됩니다. 설치시 물어보니 걱정안하셔도 됩니다. 또한 이미 설치되어 있다면 사용에 전혀 문제가 없습니다.
또한, 상기 프로그램은 프리웨어 입니다. ^^