1. 불균형 데이터? Binary?? 가 뭐지?? 라고 한다면...

먼저 불균형 데이터 학습이 뭐지? 잘 모르시겠다면 아래 영상부터 꼭 확인하세요. 세세한 용어에 대해 공부하기 전 큰 흐름을 파악하는건 정말 중요하거든요. Binary Classification Model에 대한 큰 흐름은 아래 영상이고요. 난 이것도 알고, 불균형 데이터가 어떤 문제인지도 안다!! 라고 하면 건너뛰세요~ 

https://youtu.be/uyOPlnmcHSw

2. 혼동행렬? True Positive, False Positive? Precision? Recall..? 헷깔린다고요? 

그런데 혼동행렬 (Confusion Matrix)를 정확히 모른다면 사실 F1값을 이해하는것도 힘듭니다. 영상 길지 않아요. 정말 꼭 꼭 확인해야할 영상입니다. 왜냐하면 기본 개념을 모른다면 그걸 뒷받침으로 하는 다른 개념 역시 절대 이해할 수 없거든요. 이번 영상은 수식 없이 개념을 말로 풀어 설명드리니까 이미지로 기억해보시는것도 좋을것 같아요! 

 

 

https://youtu.be/sMPmcakkBF0

2. F1값을 왜 확인해야할까? 

모델이 정말 잘 예측하고 있는지 꼭 확인해야해요. 레벨이 서로 균형을 이룬다면 Precision/ Recall, Roc / Auc 보는 정도로 괜찮겠지만 균형을 이루는 데이터는 실제 그리 많지 않습니다. 전 아직 햇병아리 3년차 데이터 사이언티스트라 많은 데이터를 보지 못해서 그런걸까요? 그래도 보통 한번 프로젝트할때 Binary Classification 모델을 스무개 서른개 돌리기도 하는데 제 경험상 균형데이터는 다룬적이 거의 없었던것 같아요. 불균형일때.. 그러니까 1의 클라스가 거의 없을때 (0.02퍼센트까지 봤었어요..) 정말 아아아아아아주 불균형이 심한거죠. 이럴땐 우리 이 모델이 얼마나 잘 예측을 하는지 어떻게 평가할 수 있을까요? 아래 영상에서 확인해보세요!! :) 

 

https://youtu.be/IquLhif4xQ4

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts