최소자승추정량 특징중에 불편성(unbiasedness)에 대해 정리해보고자 합니다.

추정량값(estimates)이 모수(parameter)와 일치하는 통계량일때, 불편성(unbiasedness)을 가진다고 합니다.  

bias가 편견, 어디에 치우침 이런 뜻이 있는데요. un- 이 붙어서 부정을 띄니까, unbiased는 어디에 치우치지 않는- 이런 뜻을 가집니다. 

 

증명문제로, 추정량값이 불편성을 가지는지 보여라- 이런 문제는 가장 많이 접했던것 같아요. 

(show that XX estimator is unbiased)   

 

그 전 포스팅에서 최소자승추정량에 대한 estimates값은 다음과 같습니다.

 1) Estimatof of $\beta_{1}$ : $b_{1}=\frac{\sum(X_{i}-\bar{X})(Y_{i}-\bar{Y})} {\sum(X_{i}-\bar{X})^2} = \frac{\sum(X_{i}-\bar{X})Y_{i}}{\sum (X_{i}-\bar{X})^2}=\frac{\sum X_{i}Y_{i}-n\bar{X}\bar{Y}}{\sum X_{i}^2-n\bar{X}^2}$

 2) Estimatof of $\beta_{0}$: $b_{0}=\bar{Y}-b_{1}\bar{X}$

 

불편성을 증명하기 위해서는 estimates의 기댓값이 모수값과 같은지 보여주면 됩니다.   

They are unbiased!! why? $\Rightarrow$ Need to show that $E[b_{1}]=\beta_{1}$ and $E[b_{0}]=\beta_{0}$

Proof

그럼, 일단 아래 내용을 활용할꺼예요. 

$k_{i}= \frac{X_{i}-\bar{X}}{\sum(X_{i}-\bar{X})^2}$, where $\sum k_{i}= 0, \ \sum k_{i}X_{i}=0, \ \sum k_{i}^2=\frac{1}{\sum(X_{i}-\bar{X})^2}$    

(1) $\sum k_{i}=0 \Rightarrow \frac{(X_{i}-\bar{X})}{S_{XX}}= \frac{\sum X_{i}-n\bar{X}}{S_{XX}}= \frac{n\bar{X}-n\bar{X}}{S_{XX}}=0$

(2) $\sum k_{i}X_{i}=1 \Rightarrow \frac{\sum( X_{i}-\bar{X})(X_{i}-\bar{X})}{S_{XX}}=\frac{\sum(X_{i}-\bar{X})^2}{S_{XX}}= \frac{S_{XX}}{S_{XX}}=1$

(3) $\sum k_{i}^2= \frac{1}{\sum(X_{i}-\bar{X})^2} \Rightarrow \sum k_{i}^2= \sum( \frac{X_{i}-\bar{X}}{S_{XX}})^2=\frac{1}{S_{XX}}\sum (X_{i}-\bar{X})^2=\frac{S_{XX}}{(S_{XX})^2}=\frac{1}{S_{XX}}$ 

 

이제 진짜 증명 들어갑니다.

Proof

1) $E[b_{1}]= \beta_{1}$  

   $\Rightarrow$ $E[b_{1}]=E[\sum k_{i}Y_{i}]= \sum k_{i}E[Y_{i}]$ as $\sum k_{i}$ is a constant! And $Y_{i}=\beta_{0}+\beta_{1}X_{i}+\varepsilon _{i}$

                     $=\sum k_{i}(\beta_{0}+\beta_{1}X_{i})=\beta_{0} \sum k_{i}+ \beta_{1} \sum k_{i}X_{i}=\beta_{1}$

2) $E[b_{0}]=\beta_{0}$

  $\Rightarrow E[b_{0}]=E[\bar{Y}-b_{1}\bar{X}]=E[\bar{Y}]-E[b_{1}\bar{X}]=\beta_{0}+\beta_{1}\bar{X}-\bar{X}\beta_{1}=\beta_{0}$

        Notice that $Y_{i}$ is a random value, therefore $\bar{Y}$, $\sum k_{i}Y_{i}$ are also random!!

        However, $\bar{X}$ is NOT a random value, but it's a constant!

        *E(aY)=a E(Y), where a is a constant!

 

 

반응형

그 전 포스팅에서는 함수적인 관계와 통계적인 관계의 차이점을 잠시 설명드렸어요. 함수적인 관계는 X값을 넣으면 Y값이 딱 나오는걸 말하지만, 통계적인 관계는 오차가 있기 때문에 X값을 넣으면 Y값이 딱 나오질 않아요. 왜냐하면 오차값이 random value라서 그래요. 오차에 관해서는 그 전 포스팅을 참고하시면 될 것 같고요. 이번 포스팅은 절편과 기울기를 찾는 방법에 대해 정리해보고자 합니다.

단순회귀분석에 대한 개념 포스팅은 여기로 참고하세요. http://statnmath.tistory.com/39 

 

 

*How to Estimate Parameter $\mathsf{\beta_{0}, \beta_{1}}$ ? $\Rightarrow$ the Least Squares Method(최소제곱법) 이용!! 


Reference: http://en.wikipedia.org/wiki/File:Linear_regression.svg

 

파란색 점은 X값에 따른 Y 값 즉 데이타 값이고요. 우리가 최종적으로 원하는건 저 빨간색 선이예요.  선이 일차함수라서 linear regression analysis이라고 합니다. 이 선(line)을 구하려면 오차를 최소화해야겠죠!! 그래서 least squares method (최소제곱법) 을 이용해 이 식을 구하려고 합니다. 식을 구한다는건 기울기와 절편을 찾는다는 얘기예요.

이 방법에 대한 개념설명은 다른곳에서도 쉽게 찾을 수 있는것 같아서, 전 증명위주로 설명해보려고 합니다.

 

 

* Find the line that gives the minimum overall squared errors

Sum of Squared Errors $\mathsf {Q= \sum_{i=1}^n \epsilon _{i}^2 = \sum (Y_{i}-\hat{Y_{i}})^2 = \sum (Y_{i}-\beta_{0}-\beta_{1}X_{i})^2}$

 

Sum of Squared Error (SSE) - 검색해보니 군내변동이라고 하는데 맞나요? 한글용어는 제가 잘 모르겠습니다ㅠㅠ

이 오차는 데이타에서 얻은 Y값에서 우리가 예상한 Y값을 뺀 값이예요. 제곱해서 더한이유는, 그냥 더했을때 + 값과 -값이 상쇄돼서 정확한 값을 모르겠죠. 이 오차값이 최소화할때 기울기와 절편 값을 구하는 거예요.

 

기울기와 절편 구하는 증명입니다.  SSE 값에 대한 미분값이 0일때 최소값을 가지는거고, 이에대해 각각 절편과 기울기 값으로 미분하게 되면 절편과 기울기값의 예상할 수 있어요. 수학적인 내용이니 이해 안가신다면 댓글 주세요:)

 

 Proof

$\mathsf {b_{0}= \frac{dQ}{db_{0}} =2 \cdot \sum_{i}^{n}(Y_{i}-b_{0}-b_{1}X_{1})^1(-1)= 0}$

              $\mathsf {= \sum y_{i}-n\cdot b_{0}-b_{i} \cdot \sum X_{i}=0 \rightarrow \frac{\sum Y_{i}}{n}-b1 \cdot \frac{\sum X_{i}}{n}=b_{0}}$ $\mathsf {\rightarrow \bar{Y}-b_{1}\bar{X}=b_{0}}$

                where $\mathsf {b_{0},b_{1}}$  are unknown!

 

 $\mathsf { b_{1}=\frac{dQ}{db_{1}}= 2\cdot \sum(Y_{i}-b_{0}-b_{1}X_{i})^1(-X_{i})=0 }$

              $\mathsf { =\sum X_{i}Y_{i}-b_{0}\cdot \sum X_{i}- b_{1} \cdot \sum X_{i}^2 =0 }$

              $\mathsf {= \sum X_{i}Y_{i}-(\hat{Y}-b_{1}\bar{X})\sum X_{i}-b_{1}\cdot \sum X_{i}^2=0}$

              $\mathsf {= \sum X_{i}Y_{i}-\bar{Y} \cdot \sum X_{i}=b_{1}(\sum X_{i}^2-\bar{X}\cdot \sum X_{i})}$

              $\mathsf {\therefore b_{1}=\frac{\sum X_{i}Y_{i}-\bar{Y} \sum X_{i}}{\sum X_{i}^2 - \bar{X} \sum X_{i}}= \frac{\sum X_{i}(Y_{i}-\bar{Y})}{\sum X_{i}(X_{i}-\bar{X})}}$

 

 

노트 정리한것도 같이 올려봅니다. 이땐 이렇게 정리했었네요. >_< 

 

휴대폰으로 접속하실때 수학기호가 안보이신다면, 위에 사진이나 아래 사이트로 접속하시면 돼요.

http://statnmath.blogspot.com/2015/01/estimation-for-slr-least-squares-method.html

 

 

   


  

 

반응형

X-linked Recessive (X염색체 열성), X-linked Dominant(X염색체 우성) 개념과 유전병

성염색체와 관련된 유전병인데요. 성염색체니까 X&Y 염색체에 이상에 따른 유전병을 말하겠죠. 이번 포스팅은 X염색체에 나타나는 우성형질과 열성형질의 특징을 정리해보고자 합니다.

 

 

[1] X-linked 우성형질 

유전 가계도(pedigree)를 보면서 시작할게요. 제가 Notability로 정리한거라 글씨가 제 멋대로입니다ㅠㅠ

다른거에 집중하지 말고 X염색체만 따져보는거예요. 유전형질이 나타나면 pedigree에서 색을 채워서 표시하는건 아시죠? 먼저 특징을 살펴봅시다~

 

각 세대마다 유전형질을 가진 사람이 있네요. 엄마가 유전형질을 가지면, 자녀한테는 아들&딸 구분없이 유전형질이 나타나고요. 아빠가 유전형질을 가지고 있으면 딸에게 유전형질이 나타나네요.

 

이유는 생각해보면 간단합니다. X염색체 상에서의 우성인지 열성인지 파악하자만 생각해보면,

유전병을 가진 남자(XY): X염색체에서 A라는 우성형질이 있으면 유전형질이 나타나겠죠. 이건 엄마한테 온거고요.

유번병을 가진 여자(XX): 이건 엄마한테 왔을수도 있고 아빠한테 왔을수도 있어요. 만약 엄마한테 왔으면 엄마도 유전형질을 가지고 있어야 하고요, 아빠한테 왔다면 아빠가 X의 A라는 유전형일이 있을테니 아빠역시 유전형질이 있어야 겠죠.  

 

정리합니다. 자녀가 유전형질을 가지고 있다면, 부모 둘 중에서 적어도 한명은 유전형질을 가지고 있어야해요. X염색체상에서 A라는 우성만 가지고 있으면 유전형질이 나타나기에, 각 세대에 걸쳐서 나타납니다. 물론 부모는 유전형질을 가지고 있지만 자녀는 유전형질을 가지고 있지 않을수도 있어요. (아들이 엄마한테 X염색체상의 a를 받으면 영향을 받지 않겠죠)   

 

[2] X-linked 열성형질  

먼저, pedigree 를 살펴보면서 특징을 파악해보아요.

 

엄마가 유전형질(XaXa)을 가지고 있으니 아들(XaY)은 모두 유전형일을 가지고 있네요. 엄마가 유전형질을 가지고 있으면 그 아들들은 유전형질(Xa)을 물려받아요. 왜냐하면 아빠는 아들에게 염색체 Y만 줬기때문에, 아들의 X 염색체는 엄마한테 온거기 때문이니까요. 이런 이유로 가계도 안을 살펴보면 결국 여자보다 남자가 더 많이 유전형질을 갖게 됩니다.  그럼 이 유전형질을 가진 아들이 만약 딸을 낳게 된다면, 딸은 무조건 염색체 중에 하나는 Xa가 되겠죠.

 

대표적인 예로 혈우병이 있습니다. 혈우병이 생긴 이유는, 우연적인 mutation으로 발생한걸로 교수님께서 말씀하시더라고요.

 

 

 

반응형

 

[1] Simple Linear Regression, 단순 회귀 분석 (단순 선형 회귀 분석) 개념

 

먼저 Regression Model (Regression Analysis), (회귀분석)의 개념이 뭔지부터 시작해볼게요.

Regression Model X Y의 통계적인 관계(Statistical Relationship)를 설명하는데요.

그럼 X는 뭐고 Y는 뭔지, 통계적인 관계가 어떤 뜻을 가지고 있는지 알아야겠죠.

 

X는 독립변수로 explanatory, independent 혹은 predictor variable 이라고도 합니다.

Y는 종속변수로 responsible, 혹은 dependent variable 이라고도 합니다.

제가 다니는 학교에서는 보통 independent or dependent variable이라고 부르지 않고요.

대신 explanatory, responsible 이라고 하거나 X, Y라고 부릅니다. X는 변수를 숫자로 설명해주니까 explanatory라고 하고요, Y X에 대한 반응값이니 responsible이라고 이해하시면 편할것 같아요.

 

③ 통계적인 관계(Statistical Relationship)는 무엇인지 알아야겠죠.

이 내용부터 설명드려야할 것 같아요. 수학에서는, y=f(x)를 함수적인 관계(functional relationship)라고 말합니다. 여기서 f(x) exact function이라고 해요. , x값에 대해 y값이 딱 떨어지는 함수예요. 그래서 그래프도 그릴 수 있는거고요. 예측할필요도 없어요. 왜냐하면 식을 알게되면 X값에 따른 Y값을 촤르륵 알 수 있게 되니까요.

 

하지만 통계에서 말하는 통계적인 관계는, y=f(x) + ε 이걸 뜻해요. 함수적인 관계에서 오차(error term)가 붙게되는데, 측정을 통한 오류 등 다양하게 발생할 수 있는 오류가 포함되는거죠. 

 

그래서 회귀분석이란 X와 Y간의 통계적인 관계를 분석하고, 분석을 하면 어떤 X값에 대한 Y값도 예측할 수 있겠죠.

 

④ 그럼 Simple Linear Regression에서 simple의 의미란?    

simple은 one predictor only를 말합니다.

그래서 일차함수로 표현하는 식을 말해요.  그럼 그 식을 알아봐야겠죠!

 

 

[2] Simple Linear Regression Equation!

$Y_{i}=\beta_{0}+\beta_{1}X_{i}+\varepsilon_{i}$

설명을 참고하셨으면 위 식을 이해하실 수 있으실꺼예요 :) 

목적은 X와 Y의 통계적인 관계를 파악해서, X값에 따른 Y값을 예측하고자 하는건데요. simple linear이므로, 일차함수를 가진 관계가 되겠죠. 일차함수에서 식을 파악하려면 기울기(slope)와 절편(intercept)를 알아야하잖아요. 그래서 여기에서도 이 두가지를 파악하는게 중요하답니다.

 

X와 Y는 실험을 통해 얻은 데이타를 말하는거고요. 그러니까 이 두개의 값을 알고 있죠.

반면, 기울기와 절편, 그리고 오차(error)는 몰라요. 그래서 기울기와 절편을 찾고자 하고, 오차는 끝까지 모릅니다. 오차를 알았다면 그건 수학으로 말하는 함수의 관계지 통계의 관계가 아닐테니까요.  

 

X와 기울기, 절편은 어떤 숫자(constant)겠지요. 반면, Y와 error는 random values라고 합니다. Random values를 한국말로 어떤 단어로 표현해야할지 난감하네요ㅠㅠ 대신 풀어서 설명해볼게요.

우리가 만약 random values에 대해 평균과 분산을 알면 이 random values의 분포를 알 수 있어요. Y와 Error는 딱 떨어지는 숫자가 아닌, random value이기에 만약 오차값에서 평균과 분산을 알면 오차의 분포를 알 수 있겠죠. 그래서 통계적인 관계를 파악하기위해 우리가 알지도 못하는 random value인 오차에 대한 조건을 만듭니다.  

 

 

[3] 오차(error term)의 평균과 분산 - 단순회귀분석 조건 (SLR Assumptions) 

① $E(\varepsilon _{i})=0$

② $Var(\varepsilon _{i})= \sigma^2$

 $Cov(\varepsilon _{i}, \varepsilon _{j})=0$ The error terms are uncorrelated.

Random value에 대해, 평균과 분산을 알고 있으면 분포를 알 수 있다고 했는데요.

그래서 오차 분포는 $\varepsilon \sim N(0, \sigma^2)$ 를 가집니다.

 

 

Y값도 random value라고 했잖아요. 그러니 Y값의 평균과 분산을 알면 분포를 알게되고, 분포를 알면 X값에 따른 Y값을 예측할 수 있겠죠.

[4] Y값의 평균과 분산   

E[Yi]= β0+ β1Xi

Proof: E[Y] = E[β0+ β1Xi + εi] = E[β0] + E[β1Xi ] + E[εi] = β0 + β1Xi

         By assumption above E[εi]=0, and β0, β1 and Xi are constants.

 

Var[Yi]= σ2

Proof: Var[Y] = Vaar[β0+ β1Xi + εi] = Var[εi] = σ2

        By assumption above Var[εi] = σ2,  β0+β1Xi are constants

 

Cov[Yi, Yj]= 0

Proof: Cov[β0+ β1Xi + εi, β0+ β1Xj + εj]= Cov [β0, β0] + Cov[β0, β1Xj] +…

(expanding each term)..+ Cov[εi , εj]=0 As Cov [constant, random] = 0,

Only Cov[εi, εj] is left, and its value is 0 by assumption.

 

 

궁금하신 사항은 댓글로 문의 주세요. 휴대폰으로 접속시에 수학기호가 안보일 수 있습니다.

 

 

 

 

 

 

 

 

 

 

반응형

1. Q&A 관련 공지사항을 참고해주세요. http://statnmath.tistory.com/notice/41

2. 서로 예의갖추는 공간이 됐으면 합니다.

   성의없는 질문, 고마워하지도 않는 분들의 질문은 패스하겠습니다.  

 

 

[질문]

 

[힌트]

어디까지 증명을 해드려야할지- 흠~

왜냐하면, 이 증명을 하려면 세가지 관계를 아셔야 해요. 정규분포에서 카이제곱분포, 카이제곱분포에서 F분포!

심화과정이 아니면 보통 정의만 배울텐데 (전 한국에서 통계과정을 배운게 아니라서 잘 모르겠습니다만-),

어디까지 자세히 적어야할지 몰라서- 제 맘대로 적어봅니다.

 

 

F분포 정의부터 생각해보자면, F분포는 두 개의 카이제곱분포의 ratio로 이뤄져있습니다.

→즉, 카이제곱분포를 가지고있는 A와 B가 있다고 가정해봅시다. $A\sim \chi_{n_{1}}^2$, $B\sim \chi_{n_{2}}^2$!! 여기서 자유도(degrees of freedom)은 각각 n1, n2라고 해요. 이때 ratio는 F 분포를 띄게 됩니다. $\frac{A/n_{1}}{B/n_{2}} \sim F_{n_{1},n_{2}}$ 이때 자유도는 n1과 n2예요.

 

그렇다면, 문제에서 $S_{1}^2$ 과 $S_{2}^2$ 이 카이제곱분포이어야 하겠네요! 

그럼, 카이제곱분포의 정의를 살펴봐야죠.  

→$X_{1}, X_{2},..., X_{n}$ 이 $N(\mu, \sigma^2)$ 으로부터 온 random sample일때,

  $\frac{n-1}{\sigma^2}\cdot S^2$ 는 n-1의 자유도를 가진 카이제곱 분포를 띄게 됩니다.

 

이 문제답을 어느정도 레벨로 적어야할지 모르지만, 일단 증명을 적어보자면~

$\sum_{i=1}^n (X_{i}- \mu)^2 = \sum(X_{i}-\bar{X}+\bar{X}-\mu)^2$  *X bar를 더해주고 빼줘도 식엔 지장 없습니다.

                          $=\sum ( (X_{i}-\bar{X})^2+2(X_{i}-\bar{X})(\bar{X}-\mu)+(\bar{X}-\mu)^2) $  *두개씩 짝지어서 제곱식을 풀어주고요~

                          $=\sum(X_{i}-\bar{X})^2+2(\bar{X}-\mu)\sum(X_{i}-\bar{X})+n(\bar{X}-\mu)^2$ * sigma를 풀고

                          $=\sum(X_{i}-\bar{X})^2+n(\bar{X}-\mu)^2$ *중간에 있는 term은 0이여서 사라집니다~  

 이때, $s^2=\frac{1}{n}\sum (X_{i}-\bar{X})^2$ 이니까, $\sum (\frac{X_{i}-\mu}{\sigma})^2= \frac{(n-1)s^2}{\sigma^2}+\frac{n(\bar{X}-\mu)^2}{\sigma^2}$ 이렇게 바꿔적을 수 있어요.

 

*여기서!! 식의 왼쪽 moment generating function(MGF)가,오른쪽 두개의 MGFs곱과 같다는건 아시죠? 

  ▷ $\sum\ (\frac{X_{i}-\mu}{\sigma})^2\sim \chi_{n}^2$ 을 띄고요. MGF는 $M_{W}(t)=(1-2t)^{-\frac{n}{2}}$ 이고, 

  ▷ $\frac{n(\bar{X}-\mu)}{\sigma^2}\sim \chi_{1}^2$를 띄고, MGF는 $(1-2t)^{-\frac{1}{2}}$  입니다.

 

증명이 너무 길어져서 아실것 같은 부분은 건너띄었습니다. 헥헥 >_<

그럼 우린 중간 식을 궁금해하잖아요. 중간식의 MGF는 $M(t)=\frac{(1-2t)^{-\frac{n}{2}}}{(1-2t)^{-\frac{1}{2}}}=(1-2t)^{-\frac{n+1}{2}}$  입니다.

그럴려면 얘가 n-1 자유도를 갖는 카이제곱을 가져야해요.

 

자유도가 n-1을 가진 카이제곱 분포를 가진다는걸 증명했으니까,

두 개 카이제곱 분포의 ratio는 F분포의 정의에 따라 F분포를 가지게 된다라고 증명하면 되겠어요.

 

 

도움 되셨나요?

 

 

반응형

+ Recent posts