안녕하세요. 제가 다른 곳이나 여기서 종종 받았던 질문이 어떤 일을 주로 하냐...였는데요. 저 역시 취업하기 전에 잘 몰랐던 일을 여기서 정리해보려고 합니다.
Data Scientist & Data Analyst 어떤 일을 하는걸까?!!!
통계 석사를 졸업하고 전 data analyst, scientist 마구마구 지원했습니다. 어디라도 되어라~ 라는 심정으로요. 물론 job description을 살펴보았지만 이게 눈에 들어오나요? 그냥 아 그렇구나 하고 패스패스. 지원 고고고- 했습니다. 다행히!! 토론토는 한국에 비해 자기소개서 1000자, 5년 후 10년 후 계획 1000자 이런건 없어서 쉽게 지원할 수 있었거든요. 대신 공채도 거의 없고, 이건 취업얘기쪽으로 빠질것 같아서 다음에 정리해보겠습니다.
데이터 과학자, Data Scientist, 데이터 분석가 Data Analyst뭐가 다를까?
제가 생각하는 기준으로는 PREDICTION MODEL + CODING 이 있느냐 없는냐의 차이인것 같습니다.
여기서 제가 빨간색으로 굵게 표시한 이유는, 제 생각이라서 그렇습니다.
최근에 리쿠르터한테 연락이 왔는데요. 파이썬과 R을 사용해서 머신러닝을 이용해 모델을 만드는일로 타이틀이 analyst였습니다. 그래서 제가, 제가 생각할때 그 일은 scientist 타이틀로 해야하는거 아닌가요? 했더니, 그 회사에서 그렇게 사용하는거라 만약 타이틀을 바꾸고 싶으면 건의해도 된다고 뭐 어쩌구 저쩌구 했었습니다. 회사마다, HR마다, 뽑는 사람마다, 일하는 사람마다 느끼는 기준은 다를 수 있기에 뭐 제가 무 자르듯이 정의를 내리는건 아니라는거죠.
저희회사에 있는 analyst들은요. 기존이 있는 데이터를 가지고 대쉬보드를 만드는일을 주로 합니다. 때론 엑셀을 사용하고요. (거의 대부분 엑셀을 사용하는것 같습니다.) 펑션 및 피벗 장난아니게 잘 돌리고요. 그래서 다른 프로그램 못지 않게 정말 예쁜 결과물을 만들곤 합니다. 아니면 data flow를 보여줄 수 있는 루시드 차트(https://www.lucidchart.com)를 사용하기도 하고요.
이밖에도 데이터가 잘 정의되어 있는지, 어떤 데이터가 필요한지 등등에 관해 일하는것 같습니다. (라고 적어봅니다.) 같은 회사에서 일하지만 뭐 같이 일을 하는게 아니라서 어떤일을 하는지는 저도 정확히는 모르겠습니다. 다만, 대부분 엑셀과 피피티, 루시드차트 이렇게 세가지를 주로 이용하는것 같더라고요.
저희회사에 있는 data scientist 은요. 우선 빅데이터 디벨로퍼 (big data developer)와 데이터 엔지니어분 (data engineer)들이 빅데이터가 클라우드 플랫폼에 잘 들어올 수 있게 길을 잘 깔고나면 클라우드 플랫폼에 데이터들이 쭉쭉 업데이트되고 하는데요. 그럼 제가 여기 클라우드 플랫폼에덧 데이터를 랜덤으로 추출한 뒤 머신러닝 모델을 짜서 데이터를 가지고 미래를 예측하도록 코딩을 만듭니다.
이때!!! 일을 10이라고 했을때 prediction model코딩을 짜는건 1? 2? 정도의 수치이고요. 데이터가 문제가 있는지, 깨끗하게 정리하고, 대부분 데이터가 encoded되어있기때문에 어떤걸 말하는지 이해하고, 데이터를 이리저리 만지작거리는게 거의 7 정도 차지하는것 같습니다. 그리고 모델을 만들어서 예측을 하게되면 대쉬보드를 만들어주기도 하고요. 이 모든게 코딩으로 이뤄지는거라서 코딩을 하는건 정말 필수의 필수이라고 할 수 있죠.
그래서 저희회사만 그런건지 모르겠지만 보통 이게 일주일만에 성과가 뿅!!! 하고 나타나는게 아닌지라 프로젝트 기간이 굉장히 길고요. 그래서 당장 일이 발등에 떨어지고 이런건 없습니다. 엔지니어들은 뭐 에러가 뜨면 로그파일 보면서 어떤 이슈가 있는지 막 확인하고 바쁜데요. 사이언티스트들은 뭐 코딩보면서, 코딩 디버깅도 했다가 다시 짰다가... 이러는게 대부분입니다. 저 역시 그렇고요.
다만!!! 예측하는 모델을 만드는것이라서 prediction model의 performance가 좋아야할텐데...의 압박이 있긴 하지만 뭐 제가 100% 다 맞출 수 있으면 회사에 있겠어요? 로또 번호 예측하는거 만들어서 로또 맞추면서 지냈게요?
그밖에... 데이터들이 항상 csv로 있는건 아니라서 데이터가 어떤 형식으로 있는지, 그리고 database에 대한 기본적인 이해가 필요하고, 이젠 데이터가 클라우드 플랫폼에 있어서 모든 데이터를 추출하는게 아닌지라 어떻게 데이터를 추출하면 좋을지에 대한 SQL 코딩정도는 잘 알고 있어야한다고 생각합니다.
이 모든게 다 취업준비할때 알아야할 지식인거죠. (라고 이직준비하고 있는 저는 울고 있습니다ㅠㅠㅠㅠ 공부할게 끝도 없어서요)
그럼 전 공부하러 총총총- 물러납니다.
'일상 및 여행 기록 > 일 이야기 ( Data Scientist)' 카테고리의 다른 글
[클래스101] 데이터과학자 실무 프로젝트 (0) | 2022.05.14 |
---|---|
비 전공자도 데이터과학자가 될 수 있을까? (1) | 2020.04.23 |
토론토에서 받은 내 첫 명함. (0) | 2019.06.02 |
토론토 머신러닝 서밋 (Toronto Machine Learning Summit) 후기 및 근황 (0) | 2018.12.15 |
1. 데이터 사이언티스트 (데이터분석가) 회사 일 이야기 시작하며 (2) | 2018.06.22 |