[1] Simple Linear Regression, 단순 회귀 분석 (단순 선형 회귀 분석) 개념

 

먼저 Regression Model (Regression Analysis), (회귀분석)의 개념이 뭔지부터 시작해볼게요.

Regression Model X Y의 통계적인 관계(Statistical Relationship)를 설명하는데요.

그럼 X는 뭐고 Y는 뭔지, 통계적인 관계가 어떤 뜻을 가지고 있는지 알아야겠죠.

 

X는 독립변수로 explanatory, independent 혹은 predictor variable 이라고도 합니다.

Y는 종속변수로 responsible, 혹은 dependent variable 이라고도 합니다.

제가 다니는 학교에서는 보통 independent or dependent variable이라고 부르지 않고요.

대신 explanatory, responsible 이라고 하거나 X, Y라고 부릅니다. X는 변수를 숫자로 설명해주니까 explanatory라고 하고요, Y X에 대한 반응값이니 responsible이라고 이해하시면 편할것 같아요.

 

③ 통계적인 관계(Statistical Relationship)는 무엇인지 알아야겠죠.

이 내용부터 설명드려야할 것 같아요. 수학에서는, y=f(x)를 함수적인 관계(functional relationship)라고 말합니다. 여기서 f(x) exact function이라고 해요. , x값에 대해 y값이 딱 떨어지는 함수예요. 그래서 그래프도 그릴 수 있는거고요. 예측할필요도 없어요. 왜냐하면 식을 알게되면 X값에 따른 Y값을 촤르륵 알 수 있게 되니까요.

 

하지만 통계에서 말하는 통계적인 관계는, y=f(x) + ε 이걸 뜻해요. 함수적인 관계에서 오차(error term)가 붙게되는데, 측정을 통한 오류 등 다양하게 발생할 수 있는 오류가 포함되는거죠. 

 

그래서 회귀분석이란 X와 Y간의 통계적인 관계를 분석하고, 분석을 하면 어떤 X값에 대한 Y값도 예측할 수 있겠죠.

 

④ 그럼 Simple Linear Regression에서 simple의 의미란?    

simple은 one predictor only를 말합니다.

그래서 일차함수로 표현하는 식을 말해요.  그럼 그 식을 알아봐야겠죠!

 

 

[2] Simple Linear Regression Equation!

$Y_{i}=\beta_{0}+\beta_{1}X_{i}+\varepsilon_{i}$

설명을 참고하셨으면 위 식을 이해하실 수 있으실꺼예요 :) 

목적은 X와 Y의 통계적인 관계를 파악해서, X값에 따른 Y값을 예측하고자 하는건데요. simple linear이므로, 일차함수를 가진 관계가 되겠죠. 일차함수에서 식을 파악하려면 기울기(slope)와 절편(intercept)를 알아야하잖아요. 그래서 여기에서도 이 두가지를 파악하는게 중요하답니다.

 

X와 Y는 실험을 통해 얻은 데이타를 말하는거고요. 그러니까 이 두개의 값을 알고 있죠.

반면, 기울기와 절편, 그리고 오차(error)는 몰라요. 그래서 기울기와 절편을 찾고자 하고, 오차는 끝까지 모릅니다. 오차를 알았다면 그건 수학으로 말하는 함수의 관계지 통계의 관계가 아닐테니까요.  

 

X와 기울기, 절편은 어떤 숫자(constant)겠지요. 반면, Y와 error는 random values라고 합니다. Random values를 한국말로 어떤 단어로 표현해야할지 난감하네요ㅠㅠ 대신 풀어서 설명해볼게요.

우리가 만약 random values에 대해 평균과 분산을 알면 이 random values의 분포를 알 수 있어요. Y와 Error는 딱 떨어지는 숫자가 아닌, random value이기에 만약 오차값에서 평균과 분산을 알면 오차의 분포를 알 수 있겠죠. 그래서 통계적인 관계를 파악하기위해 우리가 알지도 못하는 random value인 오차에 대한 조건을 만듭니다.  

 

 

[3] 오차(error term)의 평균과 분산 - 단순회귀분석 조건 (SLR Assumptions) 

① $E(\varepsilon _{i})=0$

② $Var(\varepsilon _{i})= \sigma^2$

 $Cov(\varepsilon _{i}, \varepsilon _{j})=0$ The error terms are uncorrelated.

Random value에 대해, 평균과 분산을 알고 있으면 분포를 알 수 있다고 했는데요.

그래서 오차 분포는 $\varepsilon \sim N(0, \sigma^2)$ 를 가집니다.

 

 

Y값도 random value라고 했잖아요. 그러니 Y값의 평균과 분산을 알면 분포를 알게되고, 분포를 알면 X값에 따른 Y값을 예측할 수 있겠죠.

[4] Y값의 평균과 분산   

E[Yi]= β0+ β1Xi

Proof: E[Y] = E[β0+ β1Xi + εi] = E[β0] + E[β1Xi ] + E[εi] = β0 + β1Xi

         By assumption above E[εi]=0, and β0, β1 and Xi are constants.

 

Var[Yi]= σ2

Proof: Var[Y] = Vaar[β0+ β1Xi + εi] = Var[εi] = σ2

        By assumption above Var[εi] = σ2,  β0+β1Xi are constants

 

Cov[Yi, Yj]= 0

Proof: Cov[β0+ β1Xi + εi, β0+ β1Xj + εj]= Cov [β0, β0] + Cov[β0, β1Xj] +…

(expanding each term)..+ Cov[εi , εj]=0 As Cov [constant, random] = 0,

Only Cov[εi, εj] is left, and its value is 0 by assumption.

 

 

궁금하신 사항은 댓글로 문의 주세요. 휴대폰으로 접속시에 수학기호가 안보일 수 있습니다.

 

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts