안녕하세요? 이항분포를 보고 궁금한점이 생겨서 이렇게 문의드려요.

다음과같은 f(y | n=10,w=0.7)에서 n0~10인 구간에 각가의 확률이 w=0.7에의해서 구해질수가 있는것 같은데요. 제가 궁금한것은 각각의 값을 그래프로그려보면 0.7을 중심으로 가우시안 모양의 그래프가 그려지는모양을 볼수 있는데요.

여기서 0.7의 값이 가장 큰이유가 무었인건가요? 그리고 가우시안 모양으로 만들어지는데. 이걸 어떻게 이해하고 넘어가야하느지 모르겠습니다.

이걸 신기하게도 w 0.2로하면 0.2가 가장 크게 나오는 종모양의 그래프를 얻을수 있는데요. 여기서 w는 어떤 파라미터를 의미하는지 알수 있을까요?

기본적으로 제가 알고 있기에 y는 관찰데이타이고 w parameter라고하는데요 그렇다면 여기서 w 0.2라고한다면 f 0.2 10번만에 나올 확률이라고 해석을 하는것이 맞는건가요 

 

위의 내용처럼 질문을 남겨주셨는데요. 질문자님께서 이항분포(binomial distribution) 그래프에 대한 설명을 원하시는것 같아서 새롭게 포스팅을 정리해보려고 합니다. 

이항분포의 식과 개념은 여기 포스팅 참조하세요. http://statnmath.tistory.com/47#comment12790391  

이항분포가 뭔지 대충 아셨으면 다음의 예가 이항분포인지 잘 아실꺼예요. 동전던지기 말고 다른 예를 들어볼게요. 예를들어, 3 자식을 둔 한 가족이 있다고 생각해봐요. 자녀들이 아들일 경우와 딸일 경우를 각각 50% (0.5)라고 하고요. 첫째가 아들이라고 해서 둘째 및 셋째 성별에 영향을 주지 않겠죠. 아들과 딸 성별은 서로 영향을 주지 않아서 독립적으로 이뤄진다고 가정해봤을때 아들의 수는 0부터 3까지 있겠죠. 아들이 전혀 없을수도 있고, 아들 하나 딸 둘, 이렇게 시작해서 세 아들 이렇게 있을수도 있겠죠. 이게 이항분포인건 이해 가시죠?? 이걸 이항분포 식으로 보자면~

 

이항분포 식은 $P(X)= \binom{n}{x} p^x(1-p)^{n-x}$ 이예요. 이때 x는 0부터 1, 2, 3까지 있겠네요. 이처럼 이항분포는 0부터 시작합니다!! x가 뭘 나타나는지 아시죠? 위의 예를 들어보자면 아들의 수예요. 아들이 없을때는 0, 아들이 3명이면 3 입니다.

아들이 전혀 없는 확률을 계산해봅시다. 그럼 자식이 모두 딸인 경우겠지요? 확률은 전체 경우의 수에서 모두 딸일때의 수를 말하니까 전체 경우의 수도 알아야겠네요. 전체 경우의 수는, BBB, BBG, BGB, BGG, GBB, GBG, GGB, GGG 과 같아요. (B는 아들이고, G는 딸입니다) 8개의 총 경우의 수에서 모두 다 딸일때는 1개의 경우의 수니까, 아들이 전혀 없을때의 확률은 1/8(0.125) 이 되겠어요. 이게 진짜인지 식으로 한번 계산해봅시다.

$P(X)= \binom{n}{x} p^x(1-p)^{n-x}= P(0)=\binom{3}{0}0.5^0 0.5^3=1*1*0.5^3= 0.125$  이제 이항분포의 식이 이해 가시나요? 이해 안가시면 댓글 주세요~

 

이젠 이항분포를 R로 표현해보도록 할게요. Y값은 확률을 말하고요. 위에도 계산했듯이 우리 확률을 계산했잖아요. 아들의 수가 0이었을때 확률은 0.125였다 = 즉, x가 0이었을때 y는 0.125다!! 라는걸 아래 그래프가 의미합니다. 이게 이항분포 그래프예요~  f(y | n=10,w=0.7)

 

이항분포에 대해 기본적인 내용을 이해하셨으니, 어떤 질문을 하셨는지 살펴볼게요. 이번엔 다른 예로 설명해볼게요. 농구선수가 있어요. 자유투 성공률이 0.7이라고 합시다. 매번 던질때마다 서로 결과에 영향을 주지 않아서 독립적이라고 가정해보아요.

질문자님은 f(y | n=10,w=0.7) 이 식에 대해 궁금해하셨는데요~ 즉 이 농구선수가 10번 던지고, 자유투 성공률이 0.7이라는 의미예요. 그럼 공 10번 던저서 한번 들어갈때 확률, 두번 성공했을때 확률.... 10번 다 들어갈때 확률이 있겠죠~ 이걸 x축과 y축으로 그린게 이항분포 입니다.  

 

질문자님께서 궁금해하셨던 이항분포를 한번 R로 그려보겠습니다. Y값은 확률을 말하고요~ X값은 골이 들어간걸 말해요. 즉, 10번 던져서 7번 들어갈때 확률을 계산해보면 다음 식과 같아요.

$P(X)= \binom{n}{x} p^x(1-p)^{n-x}= P(7)=\binom{10}{7}0.7^7 0.3^3=0.26$ 왜 7일때 확률값이 제일 높냐라고 하면 x값이 0부터 10까지 확률을 다 계산하면 7일떄가 가장 높기 때문이예요. 굳이 계산을 안하더라도, 차분히 생각하시면 이해 됩니다. 자유튜 성공률으 0.7인데, 10번 던져서 10번 다 들어가는 확률이 7번 들어가는 확률보단 적겠죠~

 

질문자님이  "w 0.2로하면 0.2가 가장 크게 나오는 종모양의 그래프를 얻을수 있는데요. 여기서 w는 어떤 파라미터를 의미하는지 알수 있을까요?" 라고 물어보셨는데~ 이젠 잘 이해하실꺼라 믿습니다. 그래프를 그려볼게요. 간단하게 꼬마애가 자유투를 해본다고 가정해요. 10번 던져봐야 2번 성공하는 애예요. 10번 던지는데 3번 다 들어가는건 2번 들어가는것보다 힘들겠죠. 이 애가 10번 던져서 10번 들어갈 확률은 정말 희박해요. 따라서 w는 p, 즉 자유투 성공할 확률을 말하는거 이제 아시겠죠?

 

 

이항분포 그래프 그리는건 아래 코드를 사용하셔야 합니다. 코드 입력하시고 run 하신 다음에 gbinom(n=10, p=0.7) 이렇게 입력하면 위의 그래프가 나옵니다. 참고하세요~


gbinom = function(n, p, low=0, high=n,scale = F, a=NA,b=NA,calcProb=!all(is.na(c(a,b))),quantile=NA,calcQuant=!is.na(quantile))
{
  sd = sqrt(n * p * (1 - p))
  if(scale && (n > 10)) {
    low = max(0, round(n * p - 4 * sd))
    high = min(n, round(n * p + 4 * sd))
  }
  values = low:high
  probs = dbinom(values, n, p)
  plot(c(low,high), c(0,max(probs)), type = "n", xlab = "Possible Values",
       ylab = "Probability",
       main = paste("Binomial Distribution \n", "n =", n, ", p =", p))
  lines(values, probs, type = "h", col = 2)
  abline(h=0,col=3)
  if(calcProb) {
    if(is.na(a))
      a = 0
    if(is.na(b))
      b = n
    if(a > b) {
      d = a
      a = b
      b = d
    }
    a = round(a)
    b = round(b)
    prob = pbinom(b,n,p) - pbinom(a-1,n,p)
    title(paste("P(",a," <= Y <= ",b,") = ",round(prob,6),sep=""),line=0,col.main=4)
    u = seq(max(c(a,low)),min(c(b,high)),by=1)
    v = dbinom(u,n,p)
    lines(u,v,type="h",col=4)
  }
  else if(calcQuant==T) {
    if(quantile < 0 || quantile > 1)
      stop("quantile must be between 0 and 1")
    x = qbinom(quantile,n,p)
    title(paste("The ",quantile," quantile = ",x,sep=""),line=0,col.main=4)
    u = 0:x
    v = dbinom(u,n,p)
    lines(u,v,type="h",col=4)
  }
  return(invisible())
}

 

출처: http://www.stat.wisc.edu/~larget/R/prob.R 

 

도움되셨으면 공감 부탁드립니다 :D

 

반응형

+ Recent posts