이번 포스팅은 이원 로지스틱 회귀(Binary Logistic Regression)에 대해 짧게 정리해보도록 하겠습니다. 

 

이 이원 로지스틱 회귀는 Generalized Linear Model의 한 예로 볼 수 있는데요. General Linear Model (일반선형모델)과 다르게 일반화선형모델은 Y와 X간의 linear 관계가 아닙니다. 그래서 link function으로 linear 관계를 만들어주게 됩니다.  이원 로지스틱 회귀에서는 logit이라는 link function이 사용되는데 이건 나중에 정리해보도록 할게요.

 

일반 선형 모델은 y값이 continuous인데요. 이원 로지스틱 회귀에서 y값은 binary입니다. 즉 1 아니면 0 이예요. 성공 아니면 실패, 합격 아니면 불합격 이런식의 두가지로 이뤄진 데이타 입니다. y값이 이렇게 두 가지로 이뤄져있기 때문에 Bernoulli distribution을 따르게 됩니다.

 

그럼 이원 로지스틱 회귀 조건에 대해 정리해볼게요.

우선 데이타 y값끼리 independent 해야하고요. (결과값이 서로 영향을 미치지 말아야하고요)

그리고 샘플 데이타가 충분히 많이 있어야 신뢰할만한 추론을 할 수 있어요. 왜냐하면 일반선형모델과 다르게 일반화선형모델에서 수학적인 식을 만들때 MLE (Maximum Likelihood Estimate)를 사용하게 됩니다. 이때 MLE의 조건이 unbiased 하고 정규분포를 띄기 위해서 샘플사이즈가 충분히 있어야해요. 그래서 일반 선형 모델과 다르게 일반화선형모델은 충분한 샘플 사이즈가 필요하다고 하는거예요~

 

일반 선형 모델은 outlier가 있는지 살펴보았잖아요~ 일반화 선형 모델은 그럴필요가 없어요. 왜냐!! 어짜피 Y값이 1아니면 0 이렇게 둘 중 하나라서 outlier라는 자체가 없습니다.

 

그리고 일반 선형 모델은 variance가 줄어들거나 늘어나거나 하지 않고 그룹간의 비슷한 variance를 가져야한다고 했는데요. 이원 로지스틱 회귀에서는 variance가 일정하지 않습니다. 왜냐!! Bernoulli distribution에서 분산 구할때 식을 생각해보면 성공할 확률 곱하게 실패할 확률이잖아요. 여기도 마찬가지입니다. 성공할 확률x실패할 확률로 분산이 계산되기때문에 explanatory variable에 따라 y가 성공할때 확률이 달라지므로 분산값이 일정하지 않게 됩니다.

 

 

다음 포스팅에서는 이원 로지스틱 회귀에 대한 모델과 Wald Test & Likelihood Ratio Test에 대해 정리해보도록 할게요.

http://statnmath.blogspot.ca/2015/08/the-binary-logistic-regression.html 참고하세요~

반응형

+ Recent posts