안녕하세요. 이 영상 관련해서 질문글이 있었는데요. 내용이 길어지다보니 블로그에 정리해보는게 어떨까 싶어서 이렇게 적어봅니다. 

한달 전에 질문 주셨는데, 제가 개인사정으로 인해 유튜브를 한동안 할 수 없었어요. 오래 기다리게 해서 죄송해요. 지금도 살짝 힘든 상황이지만 늦게나마 적어봅니다. 

 

 

youtu.be/2-hAjXpue50

 

 

질문: 50명씩 10개의 샘플을 조사하는 것과, 500명인 1개 샘플을 조사하는 것은 결국 똑같은거 아닌가요?

이 질문 정말 좋은것 같아요. 전 이 질문 보자마자 모수가 가질 수 있는 범위의 정도 중요하겠다란 생각이 들었어요. 물론 제가 생각하고 답변하는게 정답은 아니고요. 다른 관점이 있을 수 있으니 이렇게 생각할수도 있구나- 라고 참고했으면 좋겠습니다. 그럼 설명 해볼게요. 

 

 

 

1. 모수의 수  (혹은 범위) 가 적을 경우 

정말 간단한 환경을 위해서 이렇게 설정해보았어요. 어떤 실험에서 대상의 전체 집단의 값이 1부터 600이라고 해봅시다. 이 모수의 평균은 300.5가 됩니다. 그런데 두 상황에 따른 평균 값이 모수와 얼마나 가까운지 한번 볼게요.  

1.1. 모수가 적을때, 50개씩 10개의 샘플인 경우 

아래 파이썬 코드를 보면, 모수에서 50개씩 무작위로 뽑은 뒤, 평균을 계산합니다. 그리고 sample_mean_list에 10개의 각 샘플 평균값을 넣었고요. 샘플 1개부터 10개까지의 평균값을 보면 통계치 값이 많이 달라진다는 점을 알 수 있습니다. 그런데 이 10개의 평균값을 계산해보았더니 297.22가 나왔네요. 

1.2. 모수가 적을때, 500개씩 1개의 샘플인 경우 

500개의 샘플 하나인 경우, 600개 중 500개를 뽑았으니 모수의 데이터 중 많은걸 포함했다고 볼 수 있는데요. 이 샘플 하나의 평균 값을 보니 305.15가 나왔어요. 샘플이 1개이니까 305.15/1 = 305.15 입니다. 

 

1.3. 어느 경우가 더 모수의 평균값과 가까울까? 

중심극한정리에서 중요한 점이, 모수의 분포가 어떨지라도, 샘플의 수가 많으면 많을수록 그 샘플의 평균값이 모수의 평균값과 가까워진다는걸 설명드렸는데요. 두 상황을 비교해보면 50개씩 10번 샘플을 구해서 그 평균값이, 500개의 1개 샘플의 평균값보다 더 가깝다는걸 알 수 있습니다. 1번의 경우 모수와의 차이가 절대값을 씌워주게되면 3.28이 나왔고요, 2번의 경우 절대값을 씌워주면 4.65가 되니까요. 각 샘플마다 얻은 평균치는 비록 모수의 평균과 차이가 꽤 나지만, 10개 평균값에 대해 평균을 내보니 모수의 평균값과 비슷해진다는걸 알 수 있었습니다. 

 

그렇다면 모수의 값이 정말 클 때 살펴보도록 하죠. 

 

2. 모수의 수  (혹은 범위) 많을 경우

상황은 같습니다. 다만 모수의 값이 1부터 1,000,000 값을 가지고 있어요. 이 모수의 평균은 500000.5가 됩니다. 그런데 두 상황에 따른 평균 값이 모수와 얼마나 가까운지 한번 볼게요. 

 

2.1. 모수가 적을때, 50개씩 10개의 샘플인 경우 

아래 파이썬 코드를 보면, 모수에서 50개씩 무작위로 뽑은 뒤, 평균을 계산합니다. 그리고 sample_mean_list에 10개의 각 샘플 평균값을 넣었고요. 샘플 1개부터 10개까지의 평균값을 보면 통계치 값이 많이 달라진다는 점을 알 수 있습니다. 각 샘플마다 모수의 평균값과 얼마나 다른지 적진 않았지만, 그 차이가 전 상황보다 더 큰걸 알 수 있습니다. 이처럼 모수의 범위가 굉장히 넓을 때, 여기에서 적은 수의 데이터를 뽑아 계산하는 경우, 각 샘플마다의 통계치의 폭이 커질 수밖에 없겠죠. 10개 평균값의 평균값을 보니 484,223.352 값이 나왔습니다. 

.2. 모수가 적을때, 500개씩 1개의 샘플인 경우 

500개의 샘플 하나인 경우, 1,000,000개 중 500개를 뽑았으니 이 샘플도 모수의 범위에 비해 굉장히 적은 수를 뽑았다고 볼 수 있겠는데요. 그래도 50개보단 훨씬 많은 수를 뽑았다고 볼 수 있겠죠. 499,346.352라는 평균값을 얻었어요. 

 

2.3. 어느 경우가 더 모수의 평균값과 가까울까? 

모수의 평균값을 기준으로 1번과 2번의 평균값 중에 어느 상황이 모수의 평균값과 더 가까운가요? 1번의 경우, 절대값을 씌워주면 15,776.704 라는 차이값이 있었고, 2번의 경우 절대값으로 654.148이라는 차이값을 얻었습니다. 그러니까 비록 1번 샘플을 구했지만 샘플 자체의 사이즈가 50보다 500, 즉 10배 더 많은 수를 가지고 있었던거죠. 

 

 

마치며... 

그렇다고 이건 절대적인건 아니예요. 왜냐하면 제가 무작위로 숫자를 뽑은거니까요. 하지만 중요한 점은 모수의 범위가 다양한데 여기에서 굉장히 적은 숫자의 샘플을 구할때, 이 평균치는 모수의 평균치와 굉장히 차이가 날 수 있다는 점은 확실합니다. 이것도 뭐 어떻게 데이터를 뽑느냐에 따라 달라질 수 있겠지만요. 무작위로 뽑았을때를 말씀드리는 겁니다. 

 

이밖에... 

여기까지는 영상 관련해서 통계학적인 관점에서 적어본거였고요. 사족이겠지만 통계학을 사랑하는 데이터과학자로 일하면서 느낌점을 적어보겠습니다. 마케팅을 성공하기 위해 이 마케팅에 해당하는 타겟을 뽑는게 중요한데요. 프로모션도 만명, 몇십만명 이렇게 대중으로 하는 것보다 정말 이 마케팅을 성공하기 위해 50명 100명 이렇게 소규모로 정확한 타겟을 정하는게 더 나을 수도 있거든요. 

 

마케팅의 성공적인 관점에서 생각해볼때, 타겟에 더 정확한 소규모의 50명에게 10개 지역을 선정해서 프로모션을 보내는것과, 조금 덜 정확한 500명의 지역 한군데 프로모션을 진행하는거랑 그 상황은 다르다고 볼 수 있겠습니다. 

 

 

하지만, 제가 적은건 절대적인건 아니고요. 제가 공부한것, 경험한것으로 적어보았습니다. 

다양한 생각, 관점 언제든지 환영합니다. 

도움 되셨으면 좋겠어요. 

반응형

+ Recent posts