휴대폰으로 접속하실때 수학기호가 안보일 수 있어요. 

아래 사이트로 접속하시면 보실 수 있습니다.  

http://statnmath.blogspot.ca/2014/07/bernoullip-distribution-mle.html 

 

[1] 베르누이 개념 (Bernoulli Trial, Bernoulli Distribution)

우선 베르누이 시행(Bernoulli Trial)은 두 가지 결과값 나올때를 말합니다. 예를들어, 남자 vs. 여자, 성공 vs. 실패, 1 vs. 0, 동전의 앞면 vs. 뒷면 등등 이처럼 두가지 결과값 이외엔 없는거죠. 

 

이렇게 베르누이 시행을따른 분포를 가지는게 베르누이분포(Bernoulli Distribution)라고 합니다.   

* 두 개 결과값만 가지기에, 만약 한가지 결과가 나올 확률이 p라고 한다면, 다른 한가지 결과값이 나올 확률은 1-p가 되겠죠. 확률값은 언제나 0과 1사이에 있으니까요.

독립시행이어야 합니다. 이번에 나온 결과가 다음에 나올 결과에 영향을 미치지 않습니다.

 

 

[2] 베르누이 분포 확률식 (Bernoulli Distribution)

$\bigstar$ $f(x)=p^x(1-p)^{1-x}$ 

예를 들면서 이 식에 대해 설명해볼게요. 베르누이 시행에서 가장 대표적인 예는 바로 동면던지기예요. 동전 던지면 앞면 vs 뒷면 딱 두가지 결과값만 나오니까요. 여기서 앞면이 나올 확률이 p라고 한다면, 뒷면이 나올 확률은 1-p 이겠죠. 이때 p는~ 0$\leq$ p$\leq$ 1 (확률 p는 언제나 0과 1 사이에 있으니까요

 

식을 보니까 p x (1-p) 이라고 되어있는데요. 이처럼 두개 확률의 곱으로 이뤄졌어요. 그런데 결과값은 둘 중 하나만 나오니까 동전을 던져서 p의 확률값으로 앞면이 나왔다면, 뒷면이 나올 확률 (1-p)는 결국엔 1로 만들어줘야 합니다. 결과값 두개중에 하나의 결과값의 확률만 관심이 있기에, 나머지 결과값은 1로 만들어줘야 둘이 곱해도 우리가 원하는 값을 알 수 있으니까요. 그래서 여기에서 x는 0 혹은 1의 값만 가지게 됩니다.

 

다시 식을 살펴볼게요!! 동전의 앞면이 나올 확률이 궁금해요. 앞면이 나올경우를 1이라고 하고, 그 나올 확률이 p라고 해요. 동전을 던졌더니 뒷면이 나왔어요. 그렇다면 x값은 0이겠네요.

식에 대입해보면 다음과 같아요. $f(0)=p^0 \cdot (1-p)^{1-0}=1 \cdot(1-p)^1=1-p$

 

 

================================================================

아래 내용은 조금 더 심화과정인데요. 궁금한점 있으시면 댓글 달아주세요 :D

================================================================

 

[3] (MLE를 이용한) 베르누이 분포 평균 및 분산 증명

$\bigstar$ E(X)=p, Var(x)=p(1-p)=pq (where q=1-p) 

 Proof

$f(1|p)=p^1(1-p)^{1-1}=p$ (probability of being 1)

$f(0|p)=p^0(1-p)^1=1-p$  (probability of being 0)


만약 n개의 샘플을 가지고 있다면, joint distribution을 이용해 likelihood를 구할 수 있습니다.  

$\Rightarrow$ $P(X_{1}=x_{1},X_{2}=x_{2},...,X_{n}=x_{n})=L=\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}$


최댓값을 구하려면, joint distribution 식에서 parameter로 미분해서 0일때 값을 구하면 됩니다. 

(MLE에 관한 포스팅: http://statnmath.tistory.com/33)

$\Rightarrow$ $P=\frac{dL}{dP}=0$ $\Rightarrow \hat{p}_{MLE}$  (미분의 연쇄법칙이 필요합니다) 

$\Rightarrow log L=l=log(\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}=\sum_{i=1}^{n} log(p^{X_i}(1-p)^{1-X_{i}})$

   $=\sum_{i=1}^{n}[{x_{i}\cdot logp+(1-X_{i}})\cdot log(1-p) ]$ 

   $= logp \sum_{i=1}^{n}X_{i}+log(1-p)\sum_{i=1}^{n}(1-X_{i})$ 

   $= n\bar{X}\cdot log\hat{p}+n(1-\bar{X})\cdot log(1-\hat{p})$ 

   $\because \sum_{i=1}^{n}X_{i}=n\bar{X}\Rightarrow \bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}$ 

$\Rightarrow \frac{dl}{d\hat{p}}=\frac{n\bar{X}}{\hat{p}} - \frac{n(1-\bar{X})}{1-\hat{p}} = 0$ (for maximizing) $= \frac{n\bar{X}}{\hat{p}}=\frac {n(1-\bar{X})}{1-\hat{p}}=\bar{X}\cdot \hat{p}\bar{X}=\hat{p}-\hat{p}\bar{X}$ $\Rightarrow$  $\hat{p}_{MLE}=\bar{X}$

 

 

[4] 베르누이 분포가 충분통계량을 가지는지 증명해보시오.
$\bigstar$ Show that $T=\sum_{i=1}^{n}X_{i}$ is a sufficient statistic. 

Proof

By independence, the joint distribution of the random sample is

$\prod_{i}^{n}p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum X_{i}}(1-p)^{n-\sum X_{i}} \cdot 1$ ,

where $p^{\sum X_{i}}(1-p)^{n-\sum X_{i}} = g(\sum x_{i},p)$ , and 1= $h(X_{1},...,X_{n})$

 

 

[5] 베르누이 분포가 Exponential family에 포함되는지 증명해보시오.
$\bigstar$ Show that Bernoulli distribution is part of the exponential family. 

Proof 

We need to show $f_{\theta}(X)= \exp {[\sum_{i=1}^{k}]C_{i}(\theta)\cdot T_{j}(X)}+d(\theta)+ s(X)$

Click link to more details 


parameter p, where p= P(X=1)

$p(x|p)=p^x(1-p)^{1-x}$

$p(x|p)=exp{[log(p^x(1-p)^{1-x})]}=exp[x\cdot logp+(1-x)\cdot log(1-p)]$ 

          = $exp [x\cdot log \frac{p}{1-p} + log(1-p)]$     

This shows the Bernoulli distribution belongs to the exponential family with parameter 

$c(\theta)=\log \frac {p}{1-p}$, $T(x)=x, d(\theta)=\log (1-p), s(x)=0$  

 



 


반응형

+ Recent posts