통계학은 수학과 다르게 uncertainty, 즉  불확실성이 있습니다. 왜냐구요? 우리는 진실의 값 모수도 모르고. 샘플링을 아무리 잘해도 에러가 있을 수 있고 (잘못 수치를 쟀다거나 입력했다거나 등등), 데이터 즉 샘플은 랜덤으로 얻기 때문에 불확실성을 피할 수 없어요.

 

단순선형회귀식에서 신뢰구간과 예측구간, 두 구간이 있는데, 불확실성이 어떻게 다른지 생각해보신적 있나요? 짧게 요약해서 예측구간은 moving target을 위한 값이고 신뢰구간은 fixted target을 위한거라고 말할 수 있어요. 혹시 이 문장이 이해가 안가신다면 이 영상을 확인해주세요.

 

Population의 단순선형회귀식을 보면, Y= \beta_0 + \beta_1 X + error 

여기서 parameter인 베타 값들은 우리가 알 수 있나요? 알지 못합니다!! 전혀 알 수가 없어요. 그래서 샘플을 얻고 식을 통해 추정을 할 뿐입니다. 그런데 다른 샘플을 얻으면 이 추정된 값은 또 달라지죠. 또 샘플을 얻어서 계산을 하면 값은 또 달라질거예요. 그래서 신뢰구간을 구하고 가설검정도 합니다. 그래서 beta 값들에 대한 가설검정과 신뢰구간을 구하기도 하는게 바로 이때문이예요. 

 

그런데 우린 y 값에 대해서도 신뢰구간을 구할 수 있고, 예측구간을 구할 수 있습니다. 

y값은 크게 두가지 경우로, 평균값의 y가 있을 수 있고, 그냥 하나의 y값이 있을 수 있는데요. 전자의 경우 신뢰구간을 구하고 후자의 경우 예측구간을 구합니다. 그렇다면 평균값의 y와 하나의 값 y의 불확실성은 어디가 차이점이 있을까요? 그리고 왜 예측구간은 신뢰구간보다 더 넒은 범위를 차지하게 되는걸까요? 아래 영상에서 확인해보세요!! 

 

youtu.be/ujEVT8VEbPE 

 

 

혹시 신뢰구간에 대해 잘 모르시겠다면 아래 영상을 확인해보세요~ 

youtu.be/8m5_UOqBTR4

반응형

안녕하세요. 

 

이번 영상에서는

안녕하세요. 이번 포스팅은 비 전공자가 빅데이터, 머신러닝 딥러닝 데이터 과학자 / 데이터 사이언티스트 / 빅데이터 전문가가 될 수 있는지, 일을 하고 살아남을 수 있을지에 대해 정리해보려고 합니다. 

 

제 개인적인 생각은, 데이터 과학자의 가장 좋은 전공은 응용통계라고 생각하는데요. (제가 응용통계 전공자라서 그렇기도 하지만, 실제로 일을 했을때 problem solving을 할때 수학/통계 사고 및 지식이 굉장히 필요합니다. 

 

그렇다면, 이런 전공자만이 데이터 과학자가 될 수 있는걸까요?

 

현실부터 말씀드리면, 

현실 1. 

국비지원, 온라인 강의, 유튜브 강의 등 수업은 굉장히 다양한데요. 사실 대부분 이런 교육의 단점은 problem solving을 스스로 하도록 도와주지 못한다는 점 입니다. 통계공부를 했는데 막상 일을 할때, 전공책에 나왔던 분포와 비슷한 데이터를 만나는 기회는 적습니다. 4년동안 공부했는데도, 실제로 보는 경우가 적단 말입니다. 어? 그럼 괜히 공부한게 아니야?? 라고 생각할 수 있겠지만, 기본적으로 알고 있는걸 다 알고 있어야, 어떤 데이터에 마주쳤을때 어떻게 접근해야하는지, 어떤 방법으로 데이터를 이해하고 활용해야하는지 스스로 질문을 하고 사고를 할 수 있겠죠. 게다가 problem solving은, 어떤 것이 문제인지 찾는것 역시 problem solving에 해당이 됩니다. 무엇이 문제인지 알아내기 위해서는, 전공 개념을 정확히 알고 있는것이 중요합니다. 

 

현실 2. 

학벌의 현실. 회사가 클라이언트를 상대하는 경우 어쩔 수 없이 팀원의 학벌수준을 물어볼 수 밖에 없습니다. 돈을 내고 맡기는 입장에서, 이 프로젝트 일하는 사람들이 어떤 사람들인지 묻는건 당연합니다. 신입으로 입사하는 경우, 학벌의 벽이 심하게 느껴지겠지만, 경력이 쌓이면 경력이 우선입니다. 왜냐하면 학벌을 넘어서서 경력이 쌓였으니까요. 

 

그렇다면 비전공자는 뛰어들면 안되는걸까? 

Yes / No 라고 대답하지 않고 제가 질문을 던질테니 본인 스스로 확률로 대답해보세요. 제가 회사에서 일하면서, 데이터 사이언티스트는 이런 능력이 제일 중요하구나...라고 느낀 두가지가 있거든요. 궁금하신 분은 영상으로 확인해보세요. 전공자, 비전공자가 아닌 이러한 것들을 해결 할 수 있는 자와 없는 자로 구분하는게 더 맞다고 봅니다. 

 

전공을 떠나 무엇을 노력하고 발전하는 그 과정이, 전 그게 제일 중요하고 아릅답다고 생각하거든요. 취업 경쟁이 심한거 잘 알고 있습니다. 저 역시 엄청난 경쟁률에서 취업을 했거든요. 제가 이직한 첫날, 제 매니저가 최종 면접본 사람들의 이력서를 보여줬어요. 한권의 책 처럼 정말 두툼했습니다. 게다가 캐나다는 인맥 사회라고 부를만큼 아는사람, 인맥 이런게 정말 중요한데 인맥없이, 늦은 나이로 취업을 했어요. 주변에서 하는 말에 귀기울지 말고 본인이 부족한 점을 다양한 방법으로 채우고, 잘하는 점은 자신있게 드러내셨으면 합니다

 

 

https://youtu.be/7vk_cRUCk38

 

반응형

혹시 데이터 사이언티스트, 데이터 과학자 혹은 빅데이터 전문가가 모델링하는 사람이라고 생각하시나요? 예측 모델을 세우는 사람이라고 한다면 제가 하는 일의 한....5%정도만 설명하는 것 같은 느낌입니다. 

 

전 캐나다 토론토에서 만 3년차 데이터사이언티스트인데요. 제가 느끼기에 데이터 사이언티스트란,

클라이언트가 혹은 사용자가 원하는 것을 얻을 수 있도록 데이터가 잘 흘러갈 수있게 데이터 길을 만든느 사람이라고 생각합니다. 이때 클라이언트 /사용자가 원하는건 어떤 예측하는 값이겠죠. 예측 자체의 모델링 자체는 그리 어려운 게 아닙니다. 

 

이 길을 어떻게 구축하고, 어떤 서비스를 이용하고 어떤 방식으로 잘 흘러갈 수 있게 하냐!! 이것도 정말정말정말 중요한 작업입니다. 클라우드 서비스를 이용해야하는데, 아마존 웹서비스를 이용하는지, 구글 클라우드 서비스를 이용하는지 각 클라우드 서비스가 어떤것이 있는지도 알아야하죠. 

 

데이터는 어떻게 저장되어야하고, 저장하는 장소가 어디어야하고 등등 수많은 질문을 스스로 던지고 그 답을 찾아가는 과정 모두 다 데이터사이언티스트가 해야하는 일 입니다. 

 

전문가가 되고 싶으시다고요? 취업 준비를 어떻게 해야할지 모르겠다면 데이터 사이언티스트가 어떤 일을 하는지 직군에 대한 이해부터 한다면 도움이 될거라고 생각해요. 

 

https://youtu.be/-I8r_efiROU

 

반응형

유의확률, 즉 p-value에 대해 어떻게 설명하면 좋을까요? 전 간단하게 두 가설을 선택하기 위한 수치화된 증거라고 비유하고 싶어요. 

 

대립가설을 지지할만한 충분한 증거가 있다면 귀무가설을 기각하고, 반면 충분한 증거가 없으면, 결국 귀무가설을 선택한다고 했는데요. 이때 선택된 가설은 진실이어서가 아니라, 하나를 선택할만한 충분한 증거가 있어서 선택한거라고 설명드렸어요. 그런데 모집단의 모수라는 진실의 값을 우린 절대 알 수 없기때문에 이 모집단에 기반을 둔 가설 역시 진실의 값을 알 수 없어요. 그래서 충분한 증거를 가지고 있어도 잘못 선택할 수 있거든요. 그런데 이 증거가 많고 적음을 수치화해서 표현할 수 있다면, 잘못 선택하는걸 줄일 수 있겠죠그럼 이 증거는 어떻게 계산할까요? 

 

귀무가설은 현재 시점에서 옳다고 가정해서 시작하는거거든요. 그래서 연구하는 사람은 어떤 효과가 있거나 차이점이 있다는걸 보여주려고 연구하기때문에 이 귀무가설을 기각하고 싶어하죠. 그래서 표본을 구해서 실험을 한 뒤, 어떤 결과값, 즉 통계치를 얻었습니다. 그런데 이 통계치는요. 귀무가설이 옳다고 가정했을때, 표본으로부터 얻는 통계치거든요. 예를들어 통계치가 평균값이라고 했을때, 이런 평균값을 얻게될, 관측될 확률이 바로 p-value예요.  예를들어보자면, 우리가 현재 바라보는 시점, 귀무가설이 옳다는 시점에서 모수의 평균값이 10이라고 했어요. 그런데 샘플을 얻어서 샘플 통계치가 20이었어요. 그렇다면 이 20이 관측될만한 확률을 구하는거죠. 

 

여기서 중심극한정리의 이론이 필요합니다. 자세한 내용은 영상을 참고해주세요. 

 

https://youtu.be/TEsXCUozAsE

 

반응형

 

귀무가설(null hypothesis)은 현 시점에서 이미 존재하고 있는 상황에 대한 가설을 말해요. 처음 공부하는 분들은 이게 무슨 소리지? 하실텐데요. 예를 들자면, 제약회사에서 신약을 개발하려고 합니다. 그런데 이 약은 아직 시판된게 아니잖아요. 부작용도 있을수도 있고 해서 확실한 효과 없이 제품이 나올 수 없죠. 이때 귀무가설은 이 약의 효과가 없다!! 라고 설정을 합니다. 그렇다면 대립가설은 어떻게 설정해야할까요? 

 

약을 개발하는 연구진들은 이 귀무가설을 틀렸다는 증거를 보여야 약이 시중에 나올 수 있는거잖아요~ 그래서 이 증거를 모으기 위해 환자들을 모집한 뒤, 두 그룹을 나눠서 한쪽 그룹은 약을 먹고, 다른 그룹은 약을 먹지 않아서 얼마나 차이가 있는지, 효과는 있는지 결과값을 구합니다. 이 결과값이 차이가 충분히 크게 되면 효과가 없다라는 귀무가설을 기각하고 대립가설을 채택을 하게 되는데요. 따라서 대립가설은 귀무가설이 기각되었을때 대안으로 채택되는 가설로 설정을 해야하는거죠.  즉, 신약 효과가 있다. 라고 설정을 하는거예요. 

 

효과가 얼마나 있는지에 대해 증거를 충분히 모았는지, 못 모았는지에 대해 우린 귀무가설을 기각(reject)하거나 채택하게 되는데, 사실 채택이란 말이 정확한 표현은 아닙니다. 통계학에서 Accept H0 이라는 말 자체는 없어요. 왜냐하면 채택이라는 말 자체가 H0이 진실이다..라는 뜻이 될 수 있거든요. 대립가설을 선택할만한 증거가 충분히 없다고 해서 귀무가설을 채택이 되었을때, 이때 귀무가설이 늘 진실이라고 할 수 있을까요? 

 

가설은 모집단의 모수에 대해 오게 됩니다. 모수는 우리가 절대 알 수 없어요. 절대 알 수 없는 값에 대해 우리가 진실이라고 단정짓는다는 것 자체가 말이 되지 않는거죠. 혹시 잘 이해가 안가신다면 영상을 보면서 확인해보세요~~ 

 

 

https://youtu.be/8KNQIChxCig

 

https://youtu.be/mXlBtzYfAcU

 

반응형

+ Recent posts