http://statnmath.blogspot.ca/2015/08/case-study-2x2-contingency-table-in-sas.html (개념설명) 참고하세요 :)
이번 포스팅은 2x2 contingency table(분할표)에 대한 내용입니다. 뭔가 어려워보이지만 간단하게 설명해보자면 우리가 기대하는것과 실제로 얻은 값을 비교해 정말 차이가 있는지 없는지를 보는건데요. 예를들어 1부터 6까지 나올 확률이 동일한 fair 주사위를 60번 던져봅시다. 우리가 예상하는건 각각 1부터 6번까지 나올 확률이 동일하니까 숫자 1은 10번 나올테고 숫자 2는 10번 나올테고 등등...숫자 6은 10번 나오겠지~라고 예상할 수 있겠죠. 하지만 실제로 해보니까 1번은 8번 나오고 2번은 14번 나오고... 이렇게 들쭉날쭉합니다. 그래서 우리가 예상한것(expected)과 관찰한것(observed)이 얼마다 다른지 한번 비교해본게 바로 Chi-Squared test라고 보면 되겠어요.
예제로 바로 들어가보겠습니다. Framingham Heart Study입니다.
Reference: https://www.framinghamheartstudy.org/, https://en.wikipedia.org/wiki/Framingham_Heart_Study
저희가 알아볼 데이타는 총 샘플이 1329 남자이고요. 1948년 콜레스테롤을 재서 High 와 Low 두가지로 나눴습니다. 그리고 10년 후, cardiovascular disease (CVD, 심혈관계질환)이 발생했는지 아닌지 나눴습니다. 이때 중요한점은 1329명의 샘플 숫자는 고정되어있고요. 그리고 콜레스테롤과 심혈관계질환은 카테고리 데이타 입니다. 이게 왜 중요하냐면, 1392명이 고정되지 않으면 Poisson distribution을 띄기 때문이예요. 그리고 count data가 아니라 proportions(비율이나 분수)이면 계산 자체가 안됩니다.
그래서 우리가 알고싶은건 과연 콜레스테롤 레벨이 심혈관계 질환과 연관되어있는지 아닌지 살펴보는 겁니다. 즉 두 개의 변수가 독립적인지 아닌지 살펴보려고 해요.
데이터 불러오는 SAS 코드는 다음과 같습니다. 이렇게 입력하면 아래 이미지처럼 데이타가 입력되어요.
data fram;
input chol $ cvd $ count;
datalines;
low present 51
low absent 992
high present 41
high absent 245;
C와 D의 변수가 서로 독립적인지 아닌지 살펴보려면 다음을 살펴보면 됩니다. P(CD)=P(C) x P(D) 이때 P(CD)는 joint distribution(결합분포)이고 P(C)와 P(D)는 marginal distribution(주변분포)입니다. 두 값을 구해서 서로 같은지 아닌지 살펴보면 되겠지요.
The Joint distribution:
The probability that an observation falls into row i, column j, for i & j=1, 2 $= P(C=i, D=j)= \pi_{ij}$
The Marginal distribution:
The probability an observation falls into row I $= P(C=i)= \pi_{i \cdot}$
The probability an observation falls into column j $= P(D=i)= \pi_{ \cdot j}$
$H_0$ : $\pi_{ij}=\pi_{i\cdot}\pi_{\cdot j}$ There is no relationship between Cholesterol and CVD.
$H_1$ : $\pi_{ij} \neq \pi_{i\cdot}\pi_{\cdot j}$
SAS에서 proc freq로 Chi-squared value를 구할 수 있습니다. 이걸로 서로 두 변수가 독립적인지 아닌지 알아볼 수 있어요.
proc freq;
weight count;
table chol*cvd / chisq;
run;
SAS 결론은 아래 링크 참고하세요.
http://statnmath.blogspot.ca/2015/08/intro-to-log-linear-model-ixj.html (예제)
'공부정리 > Data Analysis 회귀분석' 카테고리의 다른 글
[회귀분석] 증명 E(Z) = 0, Var(Z) = 1 (0) | 2019.06.01 |
---|---|
adjusted R^2 & R^2값에 대해 (0) | 2017.09.19 |
Binomial Logistic Regression - 예제 (SAS) : Wald Test, Deviance GOF (0) | 2015.08.25 |
Binomial Logistic Regression (2) - Model Assessment (0) | 2015.08.22 |
Binomial Logistic Regresion (1) - Deviance, Global Likelihood Ratio Test (2) | 2015.08.22 |