그 전 포스팅에서는 함수적인 관계와 통계적인 관계의 차이점을 잠시 설명드렸어요. 함수적인 관계는 X값을 넣으면 Y값이 딱 나오는걸 말하지만, 통계적인 관계는 오차가 있기 때문에 X값을 넣으면 Y값이 딱 나오질 않아요. 왜냐하면 오차값이 random value라서 그래요. 오차에 관해서는 그 전 포스팅을 참고하시면 될 것 같고요. 이번 포스팅은 절편과 기울기를 찾는 방법에 대해 정리해보고자 합니다.

단순회귀분석에 대한 개념 포스팅은 여기로 참고하세요. http://statnmath.tistory.com/39 

 

 

*How to Estimate Parameter $\mathsf{\beta_{0}, \beta_{1}}$ ? $\Rightarrow$ the Least Squares Method(최소제곱법) 이용!! 


Reference: http://en.wikipedia.org/wiki/File:Linear_regression.svg

 

파란색 점은 X값에 따른 Y 값 즉 데이타 값이고요. 우리가 최종적으로 원하는건 저 빨간색 선이예요.  선이 일차함수라서 linear regression analysis이라고 합니다. 이 선(line)을 구하려면 오차를 최소화해야겠죠!! 그래서 least squares method (최소제곱법) 을 이용해 이 식을 구하려고 합니다. 식을 구한다는건 기울기와 절편을 찾는다는 얘기예요.

이 방법에 대한 개념설명은 다른곳에서도 쉽게 찾을 수 있는것 같아서, 전 증명위주로 설명해보려고 합니다.

 

 

* Find the line that gives the minimum overall squared errors

Sum of Squared Errors $\mathsf {Q= \sum_{i=1}^n \epsilon _{i}^2 = \sum (Y_{i}-\hat{Y_{i}})^2 = \sum (Y_{i}-\beta_{0}-\beta_{1}X_{i})^2}$

 

Sum of Squared Error (SSE) - 검색해보니 군내변동이라고 하는데 맞나요? 한글용어는 제가 잘 모르겠습니다ㅠㅠ

이 오차는 데이타에서 얻은 Y값에서 우리가 예상한 Y값을 뺀 값이예요. 제곱해서 더한이유는, 그냥 더했을때 + 값과 -값이 상쇄돼서 정확한 값을 모르겠죠. 이 오차값이 최소화할때 기울기와 절편 값을 구하는 거예요.

 

기울기와 절편 구하는 증명입니다.  SSE 값에 대한 미분값이 0일때 최소값을 가지는거고, 이에대해 각각 절편과 기울기 값으로 미분하게 되면 절편과 기울기값의 예상할 수 있어요. 수학적인 내용이니 이해 안가신다면 댓글 주세요:)

 

 Proof

$\mathsf {b_{0}= \frac{dQ}{db_{0}} =2 \cdot \sum_{i}^{n}(Y_{i}-b_{0}-b_{1}X_{1})^1(-1)= 0}$

              $\mathsf {= \sum y_{i}-n\cdot b_{0}-b_{i} \cdot \sum X_{i}=0 \rightarrow \frac{\sum Y_{i}}{n}-b1 \cdot \frac{\sum X_{i}}{n}=b_{0}}$ $\mathsf {\rightarrow \bar{Y}-b_{1}\bar{X}=b_{0}}$

                where $\mathsf {b_{0},b_{1}}$  are unknown!

 

 $\mathsf { b_{1}=\frac{dQ}{db_{1}}= 2\cdot \sum(Y_{i}-b_{0}-b_{1}X_{i})^1(-X_{i})=0 }$

              $\mathsf { =\sum X_{i}Y_{i}-b_{0}\cdot \sum X_{i}- b_{1} \cdot \sum X_{i}^2 =0 }$

              $\mathsf {= \sum X_{i}Y_{i}-(\hat{Y}-b_{1}\bar{X})\sum X_{i}-b_{1}\cdot \sum X_{i}^2=0}$

              $\mathsf {= \sum X_{i}Y_{i}-\bar{Y} \cdot \sum X_{i}=b_{1}(\sum X_{i}^2-\bar{X}\cdot \sum X_{i})}$

              $\mathsf {\therefore b_{1}=\frac{\sum X_{i}Y_{i}-\bar{Y} \sum X_{i}}{\sum X_{i}^2 - \bar{X} \sum X_{i}}= \frac{\sum X_{i}(Y_{i}-\bar{Y})}{\sum X_{i}(X_{i}-\bar{X})}}$

 

 

노트 정리한것도 같이 올려봅니다. 이땐 이렇게 정리했었네요. >_< 

 

휴대폰으로 접속하실때 수학기호가 안보이신다면, 위에 사진이나 아래 사이트로 접속하시면 돼요.

http://statnmath.blogspot.com/2015/01/estimation-for-slr-least-squares-method.html

 

 

   


  

 

반응형

+ Recent posts