안녕하세요. 데이터 사이언티스트로 일하면서 분류모델은 어떻게 일하는지 그 흐름에 대해 말씀드려보려고 해요.
예측하고자 하는 결과값이 1과 0인 값으루 구분지을 수 있으면 binary classification model을 이용해서 예측할 수 있는데요. 구체적으로 어떤 일을 회사에서 하는지 그 케이스를 알려드릴 수 없지만, 흐름은 알려드릴 수 있을것 같아서 이렇게 영상을으로 만들게 되었습니다.
데이터를 어떻게 모으고, 어떻게 데이터를 취급하고, 타겟(target)은 뭔지 피쳐(feature)는 뭔지 용어에 대한것도 설명드리고요. cut-ff (threshold)에 대해 어떻게 결과값이 달라지는지, 그래서 분류모델은 어떻게 평가를 하는지 등등 그 흐름을 간략하게 설명드립니다.
만약 머신러닝(기계학습)을 처음 접하는 분이라면, 실제 데이터 사이언티스트는 어떤 흐름으로 일하는지 궁금하다면 정말 꼭!!! 보셔야하는 영상이예요.
제 블로그 오시는 분들을 위한 번외편입니다.
영상에도 나와있지만, 데이터 수집부터 예측 평가까지 순환하면서 일을 하는 형태인데요. 여기서 제일 시간이 많이 걸리는 일이 뭘까요~~~? 모델링? 분석? 데이터 수집?
스크래이핑을 통한 데이터 수집은 어떤 데이터를 수집하냐에 따라 달라지지니까 건너뛰고요. 모델을 많이 배우니까 모델을 많이 하지 않을까 생각하시겠지만 일을 할때 가장 많은 시간이 걸리는건 클리닝이예요. 클라이언트로부터 데이터를 받거나, 심지어 저희가 돈을 주고 데이터를 사는것 역시 데이터 클리닝 작업이 많이 걸립니다. 특히 데이터 소스들이 많으면 더더욱이요. 클리닝이 단순 깨끗하게 정리하는것이 아니라, 데이터 아키텍트처럼 데이터를 어떻게 정리를 해서 어느 테이블에 넣을지, 프라임 키는 뭘로 하고 타입은 어떻게 정할지 등등 고민할게 한두가지가 아니거든요. 데이터 아키텍트에 대해서도 다루는 시간에서 mongoDB, PostGres 등 얘기를 해봐야겠습니다.
궁금한점 있으면 댓글 달아주세요~
'공부정리 > 머신러닝' 카테고리의 다른 글
머신러닝 데이터 사이언티스트는 어떤 일을 할까. (0) | 2020.04.20 |
---|---|
[Binary Classification] 불균형 데이터 기계학습에서 F1값을 왜 확인해야할까? (0) | 2020.03.16 |
기계학습 - 혼동행렬, 정밀도, 재현율 쉽게 이해하기 (0) | 2020.03.11 |