http://statnmath.blogspot.ca/2015/08/the-binomial-logistic-regression.html 참고하세요.
Binomial Logistic Regression에서 조건 및 model assessment에 대해 간략히 정리해보려고 합니다.
1. Logit과 X변수간의 linear relationship을 가질것!!
즉, 로지스틱 회귀는 Generalized linear Model인데요. 계속 반복해서 적고 있지만, 일반화선형모델은 Y변수에 변형을 줘서, 즉 link function을 이용해 Y와 X간의 선형적인 관계를 만들어주는걸 말합니다. 그래서 observed logit과 quantitative x 변수간의 scatter plot을 이용해 선형적인 관계인지 확인해야해요.
2. Outlier가 있는지 없는지.
그 전에 정리했던 Binary Logistic Regression은 outlier가 없습니다. 왜냐하면 y값이 어짜피 1 아니면 0 이기때문에 살펴볼 의미가 없었는데요. Binomial Logistic Regression은 binary와 다르게 y값이 카운트 할 수 있어서 outlier의 여부를 살펴봐야합니다. - 이때 Pearson & Deviance를 통해 outlier의 여부를 알아볼 수 있어요.
3. Model Fitness - AIC, BIC(SC)
단순한 데이타가 아니라면, 한 데이타 안에서 y값을 설명할 수 있는 식이 여러개 나올 수 있는데요. 그중에서 어떤 모델이 적합한지 알아보려면 AIC, BIC를 이용하면 됩니다.
3.1 Akaike's Information Criterion (AIC)
AIC = -2 log L + 2(p+1), where 2(p+1) is a penalty and p+1 : # parameters including $\beta_0$
3.2 Schwarz's (Bayesian Information) Criterion (SC)
SC = -2 logL + (p+1) log N, where (p+1)log N is a penalty and p is the number of explanatory variables
결론은 작은 값이 더 나은 모델을 의미하고요. 특히 AIC값 차이가 10 이상이 난다!! 싶으면 작은 AIC, SC값을 가진 모델이 적합합니다. 그런데 여러 모델의 AIC, SC값 차이가 2 미만이라면 거의 차이 없다라고 생각하면 됩니다.