안녕하세요. 제가 조교할때 학부생들 채점하면서 봤던 귀무가설 문장이었어요. 만약에 학생이, 이 문장이 왜 틀렸냐고 한다면 어떻게 설명해줄 수 있을까요? 가설검정을 정확하게 이해하지 못해서 이렇게 적었던것 같아요?  

 

이 문장이 왜 틀렸는지정도만 간략하게 여기에 적어볼게요. 만약 더 자세한 내용이 궁금하신 분은 유튜브를 참고해주세요~ 

 

https://youtu.be/mXlBtzYfAcU

 

Hypothesis Testing, 즉 가설검증은 가설(Hypothesis)을 통계적인 방법으로 검정(Testing)한다라고만 이해한다면 중요한 내용이 싹 다 빠졌어요. 이렇게 이해하면, 저 귀무가설이 왜 틀린지 설명할 수 없답니다. 여기에 모집단, 모수 등의 통계 용어가나오게 되는데요. 이 용어도 정확하기 이해를 못하면 가설검증도 이해할 수 없어요.

 

모집단의 모수가 얼마다 된다는 주장(가설)으로, 이를 검증하기 위해 표본 데이터를 통해서 가설이 합당한지 판정하는 과정을 말해요. 아니 이게 무슨 소리냐고요? 그럼 더 자세히 설명해보겠습니다. 모집단(Population) 우리가 알 수 있나요? 알 수 없어요. (왜 모르지? 하면 유튜브 참고해주세요) 우리가 이 모집단에 대해, 이 모집단을 설명해줄 수 있는 모수에 대해서 서로 상반되는 두 문장을 정합니다. 이게 귀무가설가 대립가설이예요. 뭐 그냥 짧게 A와 B라고 할게요. 이 문장에 대해 우린 어느게 맞는 말인지 알아보려고 합니다. 그런데 모집단을 다 구할 수 없으니까 표본 즉 샘플 데이터를 구하게 되죠. 그런데 샘플을 구할 때마다 통계치가 매번 달라지잖아요. 그래서 우린 단순히 통계치에 대한 에러인지, 아니면 정말 모집단의 특징이 반영된 통계치가 나온건지 구분을 해야하죠. 

 

자, 다시 가설로 돌아와서요. 모집단의 모수에 대해 설명하는 두 문장이어야 합니다. 그렇다면 문장 안에, 모집단에서 나오는 모수가 들어가야할까요? 아니면 표본에서 나오는 통계치에 대해 들어가야할까요?  

 

당연히!!! 모집단을 설명하는, 모수에 대한 식이어야 하겠죠!!!  우리 모집단은 그리스어로 적게 되죠. 알파벳으로 적는건 샘플을 통해 얻은 통계치일 경우에 적게 됩니다. 그래서 귀무가설이 그리스어로 적혀있는게 아니라서 틀린 문장입니다!!! 

 

 

기본 용어

https://youtu.be/_9iPCoB6AcM

 

 

반응형

1. 불균형 데이터? Binary?? 가 뭐지?? 라고 한다면...

먼저 불균형 데이터 학습이 뭐지? 잘 모르시겠다면 아래 영상부터 꼭 확인하세요. 세세한 용어에 대해 공부하기 전 큰 흐름을 파악하는건 정말 중요하거든요. Binary Classification Model에 대한 큰 흐름은 아래 영상이고요. 난 이것도 알고, 불균형 데이터가 어떤 문제인지도 안다!! 라고 하면 건너뛰세요~ 

https://youtu.be/uyOPlnmcHSw

2. 혼동행렬? True Positive, False Positive? Precision? Recall..? 헷깔린다고요? 

그런데 혼동행렬 (Confusion Matrix)를 정확히 모른다면 사실 F1값을 이해하는것도 힘듭니다. 영상 길지 않아요. 정말 꼭 꼭 확인해야할 영상입니다. 왜냐하면 기본 개념을 모른다면 그걸 뒷받침으로 하는 다른 개념 역시 절대 이해할 수 없거든요. 이번 영상은 수식 없이 개념을 말로 풀어 설명드리니까 이미지로 기억해보시는것도 좋을것 같아요! 

 

 

https://youtu.be/sMPmcakkBF0

2. F1값을 왜 확인해야할까? 

모델이 정말 잘 예측하고 있는지 꼭 확인해야해요. 레벨이 서로 균형을 이룬다면 Precision/ Recall, Roc / Auc 보는 정도로 괜찮겠지만 균형을 이루는 데이터는 실제 그리 많지 않습니다. 전 아직 햇병아리 3년차 데이터 사이언티스트라 많은 데이터를 보지 못해서 그런걸까요? 그래도 보통 한번 프로젝트할때 Binary Classification 모델을 스무개 서른개 돌리기도 하는데 제 경험상 균형데이터는 다룬적이 거의 없었던것 같아요. 불균형일때.. 그러니까 1의 클라스가 거의 없을때 (0.02퍼센트까지 봤었어요..) 정말 아아아아아아주 불균형이 심한거죠. 이럴땐 우리 이 모델이 얼마나 잘 예측을 하는지 어떻게 평가할 수 있을까요? 아래 영상에서 확인해보세요!! :) 

 

https://youtu.be/IquLhif4xQ4

 

 

 

 

 

 

 

 

 

반응형

제가 학교다닐때 종종 주변 친구들, 혹은 모르는 사람들로부터 노트 좀 빌려달라는 얘길 많이 들었어요. 생물학은 아이패드로 필기하면 되었는데, 수학, 통계 수업은 교수님께서 칠판에 적으시고 학생들이 받아적는 상황이잖아요. 하지만 교수님이 적으시는 속도는 정말 빠르다는거... 그래서 교수님의 스타일이 어떤지에 따라 필기방법 노하우를 적어봅니다. 

 

1. 교수님의 필기속도가 정말 빠를때, 하지만 난 깔끔한 노트를 원한다면? 

https://youtu.be/MI7ZvjcWDuI

2. 내가 공부할 시간이 적을때는? 

3. 통계, 수학 수업 자료가 PPT일때는? 

https://youtu.be/V0Mwt-zIsoA

교수님의 강의만 잘 정리해도 학점을 잘 받을 확률이 높겠죠? 노트필기하는게 시간이 걸리지만, 복습하는 시간이고, 나중에 과제하거나 시험볼때 분명히 시간을 많이 아낄 수 있을거라 생각해요.

 

 

이번 학기도 화이팅입니다!! :) 

 

반응형

'자료모음 > 수학,통계 노트필기 방법' 카테고리의 다른 글

GitHub - Readme file 수정하기  (3) 2017.05.06

https://youtu.be/sMPmcakkBF0

머신러닝 (기계학습)에서 정밀도! 재현율! 단어만 봐도 아!!! 이건 분류모델에서 나오는 예측한 결과값을 평가하는데 나오는 값들이구나!!라고 바로 생각이 나셔야합니다.

 

Binary Classification 에 해당하는 예시로는, 환자가 병에 걸린건지 아닌지, 우린 진실을 모르지만 진실을 알기 위해 예측을 할 수 있죠. 피 뽑던가 CT촬영을 하던가 등등요. 진단 결과는 바로 예측하는거예요. 하지만 진짜 이게 진실인지 아닌지는 모릅니다. 예측을 하는 것 뿐이죠. 신용카드 결제가 사기인지 아니면 정상적인 결제인지...회사 입장에서는 모르죠. 물론 우리가 카드를 제대로 사용했다면 진실이지만, 회사 입장에서는 알 수는 없습니다. 회사에서는 얼마를, 어디에서, 몇시에 결제된건지 등등을 파악해서 이 신용카드 사용이 정상적인지 아닌건지 예측을 합니다. 

 

모델은 누구나 세울 수 있어요. 다만 어떤 모델, 얼마나 훌륭한 모델을 세웠느냐는 다른 얘기죠. 그래서 혼동행렬을 통해, 그리고 그 값들을 통해 여러가지를 분석합니다. 그런데...정밀도(precision), 재현율(Recall), 그리고 혼동행렬......혼동의 카오스...는 아니고요. True Postive, True Negative, False Positive, False Negative 아....머리아프다. 햇갈린다 하시는 분들!! 꼭 보세요. 사실 이런 개념은 글로 읽으면 잘 눈에 안들어옵니다. 영상으로 직접 보셔야 이해가 확 가요!

 

그런데 정밀도와 재현율 중에 뭐가 중요할까요? 답이 궁금하신 분, 확인해보세요~ 

 

 

 

반응형

https://youtu.be/uyOPlnmcHSw

 

안녕하세요. 데이터 사이언티스트로 일하면서 분류모델은 어떻게 일하는지 그 흐름에 대해 말씀드려보려고 해요. 

 

예측하고자 하는 결과값이 1과 0인 값으루 구분지을 수 있으면 binary classification model을 이용해서 예측할 수 있는데요. 구체적으로 어떤 일을 회사에서 하는지 그 케이스를 알려드릴 수 없지만, 흐름은 알려드릴 수 있을것 같아서 이렇게 영상을으로 만들게 되었습니다. 

 

 

데이터를 어떻게 모으고, 어떻게 데이터를 취급하고, 타겟(target)은 뭔지 피쳐(feature)는 뭔지 용어에 대한것도 설명드리고요. cut-ff (threshold)에 대해 어떻게 결과값이 달라지는지, 그래서 분류모델은 어떻게 평가를 하는지 등등 그 흐름을 간략하게 설명드립니다. 

 

만약 머신러닝(기계학습)을 처음 접하는 분이라면, 실제 데이터 사이언티스트는 어떤 흐름으로 일하는지 궁금하다면 정말 꼭!!! 보셔야하는 영상이예요. 

 

 

제 블로그 오시는 분들을 위한 번외편입니다.

 

영상에도 나와있지만, 데이터 수집부터 예측 평가까지 순환하면서 일을 하는 형태인데요. 여기서 제일 시간이 많이 걸리는 일이 뭘까요~~~? 모델링? 분석? 데이터 수집? 

 

스크래이핑을 통한 데이터 수집은 어떤 데이터를 수집하냐에 따라 달라지지니까 건너뛰고요. 모델을 많이 배우니까 모델을 많이 하지 않을까  생각하시겠지만 일을 할때 가장 많은 시간이 걸리는건 클리닝이예요. 클라이언트로부터 데이터를 받거나, 심지어 저희가 돈을 주고 데이터를 사는것 역시 데이터 클리닝 작업이 많이 걸립니다. 특히 데이터 소스들이 많으면 더더욱이요. 클리닝이 단순 깨끗하게 정리하는것이 아니라, 데이터 아키텍트처럼 데이터를 어떻게 정리를 해서 어느 테이블에 넣을지, 프라임 키는 뭘로 하고 타입은 어떻게 정할지 등등 고민할게 한두가지가 아니거든요. 데이터 아키텍트에 대해서도 다루는 시간에서 mongoDB, PostGres 등 얘기를 해봐야겠습니다. 

 

궁금한점 있으면 댓글 달아주세요~ 

 

 

반응형

+ Recent posts