그 전 포스팅에서는 함수적인 관계와 통계적인 관계의 차이점을 잠시 설명드렸어요. 함수적인 관계는 X값을 넣으면 Y값이 딱 나오는걸 말하지만, 통계적인 관계는 오차가 있기 때문에 X값을 넣으면 Y값이 딱 나오질 않아요. 왜냐하면 오차값이 random value라서 그래요. 오차에 관해서는 그 전 포스팅을 참고하시면 될 것 같고요. 이번 포스팅은 절편과 기울기를 찾는 방법에 대해 정리해보고자 합니다.
단순회귀분석에 대한 개념 포스팅은 여기로 참고하세요. http://statnmath.tistory.com/39
*How to Estimate Parameter $\mathsf{\beta_{0}, \beta_{1}}$ ? $\Rightarrow$ the Least Squares Method(최소제곱법) 이용!!
Reference: http://en.wikipedia.org/wiki/File:Linear_regression.svg |
파란색 점은 X값에 따른 Y 값 즉 데이타 값이고요. 우리가 최종적으로 원하는건 저 빨간색 선이예요. 선이 일차함수라서 linear regression analysis이라고 합니다. 이 선(line)을 구하려면 오차를 최소화해야겠죠!! 그래서 least squares method (최소제곱법) 을 이용해 이 식을 구하려고 합니다. 식을 구한다는건 기울기와 절편을 찾는다는 얘기예요.
이 방법에 대한 개념설명은 다른곳에서도 쉽게 찾을 수 있는것 같아서, 전 증명위주로 설명해보려고 합니다.
* Find the line that gives the minimum overall squared errors
Sum of Squared Errors $\mathsf {Q= \sum_{i=1}^n \epsilon _{i}^2 = \sum (Y_{i}-\hat{Y_{i}})^2 = \sum (Y_{i}-\beta_{0}-\beta_{1}X_{i})^2}$
Sum of Squared Error (SSE) - 검색해보니 군내변동이라고 하는데 맞나요? 한글용어는 제가 잘 모르겠습니다ㅠㅠ
이 오차는 데이타에서 얻은 Y값에서 우리가 예상한 Y값을 뺀 값이예요. 제곱해서 더한이유는, 그냥 더했을때 + 값과 -값이 상쇄돼서 정확한 값을 모르겠죠. 이 오차값이 최소화할때 기울기와 절편 값을 구하는 거예요.
기울기와 절편 구하는 증명입니다. SSE 값에 대한 미분값이 0일때 최소값을 가지는거고, 이에대해 각각 절편과 기울기 값으로 미분하게 되면 절편과 기울기값의 예상할 수 있어요. 수학적인 내용이니 이해 안가신다면 댓글 주세요:)
Proof $\mathsf {b_{0}= \frac{dQ}{db_{0}} =2 \cdot \sum_{i}^{n}(Y_{i}-b_{0}-b_{1}X_{1})^1(-1)= 0}$ $\mathsf {= \sum y_{i}-n\cdot b_{0}-b_{i} \cdot \sum X_{i}=0 \rightarrow \frac{\sum Y_{i}}{n}-b1 \cdot \frac{\sum X_{i}}{n}=b_{0}}$ $\mathsf {\rightarrow \bar{Y}-b_{1}\bar{X}=b_{0}}$ where $\mathsf {b_{0},b_{1}}$ are unknown!
$\mathsf { b_{1}=\frac{dQ}{db_{1}}= 2\cdot \sum(Y_{i}-b_{0}-b_{1}X_{i})^1(-X_{i})=0 }$ $\mathsf { =\sum X_{i}Y_{i}-b_{0}\cdot \sum X_{i}- b_{1} \cdot \sum X_{i}^2 =0 }$ $\mathsf {= \sum X_{i}Y_{i}-(\hat{Y}-b_{1}\bar{X})\sum X_{i}-b_{1}\cdot \sum X_{i}^2=0}$ $\mathsf {= \sum X_{i}Y_{i}-\bar{Y} \cdot \sum X_{i}=b_{1}(\sum X_{i}^2-\bar{X}\cdot \sum X_{i})}$ $\mathsf {\therefore b_{1}=\frac{\sum X_{i}Y_{i}-\bar{Y} \sum X_{i}}{\sum X_{i}^2 - \bar{X} \sum X_{i}}= \frac{\sum X_{i}(Y_{i}-\bar{Y})}{\sum X_{i}(X_{i}-\bar{X})}}$ |
노트 정리한것도 같이 올려봅니다. 이땐 이렇게 정리했었네요. >_<
휴대폰으로 접속하실때 수학기호가 안보이신다면, 위에 사진이나 아래 사이트로 접속하시면 돼요.
http://statnmath.blogspot.com/2015/01/estimation-for-slr-least-squares-method.html
'공부정리 > Data Analysis 회귀분석' 카테고리의 다른 글
두 표본 t 검정 (Two Sample T-test) - 예제 (SAS) (0) | 2015.05.27 |
---|---|
두 표본 t 검정 (Two Sample T-test) - 예제 (R) (0) | 2015.05.06 |
두 표본 t 검정 (Two Sample T-test) (0) | 2015.05.04 |
(개념&증명) 3. 최소자승추정량- 불편성 (least squares estimators are unbiased) (0) | 2015.01.10 |
(개념&증명) 1. Simple Linear Regression 단순회귀분석 개념 및 조건 (1) | 2015.01.06 |