통계학은 수학과 다르게 uncertainty, 즉  불확실성이 있습니다. 왜냐구요? 우리는 진실의 값 모수도 모르고. 샘플링을 아무리 잘해도 에러가 있을 수 있고 (잘못 수치를 쟀다거나 입력했다거나 등등), 데이터 즉 샘플은 랜덤으로 얻기 때문에 불확실성을 피할 수 없어요.

 

단순선형회귀식에서 신뢰구간과 예측구간, 두 구간이 있는데, 불확실성이 어떻게 다른지 생각해보신적 있나요? 짧게 요약해서 예측구간은 moving target을 위한 값이고 신뢰구간은 fixted target을 위한거라고 말할 수 있어요. 혹시 이 문장이 이해가 안가신다면 이 영상을 확인해주세요.

 

Population의 단순선형회귀식을 보면, Y= \beta_0 + \beta_1 X + error 

여기서 parameter인 베타 값들은 우리가 알 수 있나요? 알지 못합니다!! 전혀 알 수가 없어요. 그래서 샘플을 얻고 식을 통해 추정을 할 뿐입니다. 그런데 다른 샘플을 얻으면 이 추정된 값은 또 달라지죠. 또 샘플을 얻어서 계산을 하면 값은 또 달라질거예요. 그래서 신뢰구간을 구하고 가설검정도 합니다. 그래서 beta 값들에 대한 가설검정과 신뢰구간을 구하기도 하는게 바로 이때문이예요. 

 

그런데 우린 y 값에 대해서도 신뢰구간을 구할 수 있고, 예측구간을 구할 수 있습니다. 

y값은 크게 두가지 경우로, 평균값의 y가 있을 수 있고, 그냥 하나의 y값이 있을 수 있는데요. 전자의 경우 신뢰구간을 구하고 후자의 경우 예측구간을 구합니다. 그렇다면 평균값의 y와 하나의 값 y의 불확실성은 어디가 차이점이 있을까요? 그리고 왜 예측구간은 신뢰구간보다 더 넒은 범위를 차지하게 되는걸까요? 아래 영상에서 확인해보세요!! 

 

youtu.be/ujEVT8VEbPE 

 

 

혹시 신뢰구간에 대해 잘 모르시겠다면 아래 영상을 확인해보세요~ 

youtu.be/8m5_UOqBTR4

반응형

+ Recent posts