ㄷ안녕하세요. 이지영입니다. 인스타에 포스팅할 겸 블로그에도 글을 올려봅니다. 

출처: 통계청 2023년 출생, 사망 통계 (링크)

 



 

데이터 분석해서 보고하는 상황을 생각해 봅시다. 그게 보고서이든 발표든, 혹은 대회든 출처에서 제공하는 차트나 그래프, 표 그대로 사용해도 크게 문제되진 않습니다. 예를 들어 통계청에서 제공하는 그래프 그대로 보여줘도 좋지만, 사실 그래프 그대로 사용하기엔 자신이 말하고자 하는 주제와 어긋나는게 있을 수도 있고요. 숫자가 커지다보면 이해하는데 시간이 걸리기도 하고요. 

 

저 역시 데이터 분석을 잘 하려면 어떻게 해야할까? 를 고민하는데, 

데이터 분석을 잘 하는 것과 

분석된 데이터를 잘 전달하는 것은 다르게 접근해야한다는걸 깨달았습니다. 

 

특히 분석된 데이터를 잘 전달하는건 정말 중요한 일인데요. 이건 차차 풀어가도록 하고.. 

잘 전달하는 방식이, 출처 그대로 보여주는게 과연 잘 전달하는건지는 생각해봐야 합니다. 

데이터 분석 공부할때, 내가 힘들게 데이터를 찾고 분석했지만 이걸  정말 쉽게 전달할 수 있는 방법이 무엇일까.. 항상 고민해보셨으면 좋겠어요. 저 역시 고민하고 있습니다 :) 

 

그 중 한가지 방법 중 하나를 소개해보자면, 100으로 표현해보는거예요. 

특히 큰 숫자가 나올수록, 혹은 소숫점이 나올수록 10으로 혹은 100으로 표현해보는 연습을 추천드립니다. 

 

이게 훨씬 더 와닿거든요. 

와닿는다는 의미는, 이 데이터 분석이 얼마나 의미를 갖는지를 뜻하기도 합니다. 

 

반응형

 

안녕하세요. 이지영입니다. Cluade2.1 모델을 사용하면서 Mistral Large 모델이 나왔다고 했을 때, 너무너무 기뻤어요. 사실 사용자 입장에서 저렴한 금액, 그리고 뛰어는 성능 - 무조건 두팔벌려 환영하는 상황 아니겠습니까?!! Cluade2.1보다 뛰어나다고 하니, 꼭 써봐야겠다!! 라고 했는데 Cluade 3이 나와서 비용 대비 성능을 비교하는 상황이 오게 되었습니다. 비용은 나중에 한번에 쭉 정리해볼게요! 

 

혹시 미스트랄 라지의 비용이 궁금하다면 다음 링크 참고하세요~

https://docs.mistral.ai/platform/pricing/ 

 

 

멘쉬의 생각은 빅테크 회사에서 불투명한 기술을 만들고 싶지 않아서 오픈소스 AI개발을 결심했다고 합니다. 그리고 미국이 주도하고 있는 AI시장에 맞서 프랑스 스타트업이라는 것도 주목할만 했고요. 

 

2023년 5월 창립 후, 2024년 2월 미스트랄 라지 모델이 출시해서 그 결과 GPT의 5분의 1, 성능은 거의 비슷하다고 합니다. 출시되자마자 2024년 2월에 AWS Bedrock에 미스트랄 모델이 추가 되었고, 3월엔 Microsoft 파트너십을 맺어 Azure에도 넣는다고 합니다. (이미 가능한지 모르겠어요. 전 AWS를 사용해서요) 또한 이번에 Snowflake와 파트너십을 맺었는데요. Snowflake는 Mistral이 구축한 모든 모델을 데이터 클라우드로 가져와서 LLM 앱을 구축하는 고객에게 직접 사용할 수 있도록 할 계획이라고 합니다. 

 

 

반응형

 

프로젝트로 #AI스타트업 #Anthropic #LLM 모델인 Cluade2.1와 GPT4를 테스트중에 있는데요. Cluade3이 출시되어서 너무 기대하고 있습니다. 그런데 Anthropic의 프롬프트 엔지니어가 Opus모델을 needle-in-the-haystack 테스트해봤다고 하는데요. 이 테스트가 뭐냐면, 대용량의 문서에 (건초더미) 아주 특정 주제(바늘)을 넣어서 이 특정 주제를 잘 찾는지, 다른 말 하지는 않는지 테스트해보는거예요. 때론 거짓 정보를 주거나 없는 말을 만들어내기도 하고, (Hallucination) 또는 모델이 이미 훈련되어 알고있는 것을 알려주기도 하거든요.

 

 

Claude 3라는 이름은 세 개의 새로운 LLM을 포괄하며 가장 유능한 것은 Claude 3 Opus이라고 합니다.

 

Claude Pro 사용자에게만 제공되는 Anthropic의 새로운 프리미엄 AI 모델이고요. 대학원 수준의 추론 능력은 GPT-4의 35.7% 점수와 비교하여 테스트했을 때 50.4%를 기록했다고 합니다. 

 

그 아래 모델로 Claude Pro 구독 비용을 지불하고 싶지 않은 경우 사용할 수 있는 Claude 3 Sonnet이 있습니다. 대학원 시험 점수가 40.4%(역시 GPT-4의 35.7% 등급과 비교)라고 하고요. 

마지막으로 현재 미공개 세 번째 모델인 클로드 3 하이쿠(Claude 3 Haiku)가 있는데요. 즉각적인 응답이 제공될 수 있도록 설계되었다고 합니다. 

 

 

프롬프트 엔지니어 트위터를 보면.. 건초더미속에 바늘찾기 성능을 테스트하던 중, Opus가
👽 내가 주의를 기울이고 있는지 테스트하기 위해 넣었다고 생각합니다~~~ 라고 대답했다고 합니다.

신기하다~ 라고 생각할 수 있지만... 프롬프트 엔지니어의 트위터!! 뭔가 이상하지 않나요?
참고로 모델은 주어진 건초더미뿐 아니라, 프롬프트역시 읽게 되는데.. 이 프롬프트에 어떻게 적었는지에 따라 모델이 답변을 합니다.

만약 프롬프트에다가..
😤 Think Step by step이라고 입력하면...
모델은 내가 차근 차근 생각해봤는데 말이지~ 라고 답변합니다.

😤 주의해서 찾아봐!! 라고 입력하면...
내가 주의를 기울이면서 봤는데~~ 라고 대답할 수 있죠.

😤 내가 테스트할거니까 주의를 기울이면서 잘 찾아봐야해!! 라고 입력하면..
트위터에 있는 것처럼 당연히 이렇게 대답할 수 있다고 생각합니다. 

 

아무래도 모델이 출시 되었고, 직원이 프롬프트를 공개하지 않은 상태로 모델이 어떻게 대답했는지 알려준건 뭔가 반쪽만 공개한 느낌이 강한데요. 그래도 성능이 뛰어나다고 하니 저 역시 Cluade 3를 곧 사용해보려고 합니다. 

반응형

안녕하세요. 이지영입니다.

지난 달 데이터 분석 관련 해커톤 심사위원을 맡았습니다. 모든 지원자 정보는 블라인드 처리되어 제안서만을 기준으로 채점을 했는데요. 정말 열심히 준비했는데, 사소한 실수로 점수를 깎을 수 밖에 없었던 상황이 너무 속상해서 체크리스트를 만들게 되었습니다. 총 5가지 항목을 기준으로 각 항목별 세부사항에 대해 정리한 체크리스트인데요. 

 

인스타 포스팅을 가져와봤어요. @statnmath

 

1️⃣ 제안서 주제 중...
제 체크리스트에 있는 4가지 항목 중 가장 중요한 점, 바로 <대상에 대한 구체적인 정의>에 대해 강조, 또 강조하고 싶어요.
예를 들어, <1인 가구>라고 해도 연령대, 지역, 성별 등 구체화할 수 있고, 또 이 대상이 얼마나 있는지 수치화 하면 더 좋습니다. 대상을 수치화하면 분석과 결론에 이르기까지 아주 구체적일 수 있거든요.

2️⃣ 분석 & 모데링 중...
분석은 제가 쓴 #데이터사이언티스트실전노트 를 추천하고 싶습니다. 데이터 전처리하는 과정에서, 왜 이 과정이 필요했는지, 그래서 문제점은 없었는지, 이런것만 잘 서술해도 점수가 쭉쭉 올라갑니다.

3️⃣ 시각화 중...
이 그래프로 무엇을 얘기하고 싶은지 두번, 세번 생각해 보세요. 너무 뻔히 알고 있는 것을 굳이 그래프로 보여주고 있는건 아닌지, 인사이트가 빠진 것은 아닌지 주의해야 합니다. 결국 분석이나 그래프는 문제를 해결하는 과정의 중간 단계인데요. 그 중간단계가 튼튼해야 결론 역시 논리적으로 연결될 수 있겠죠.

4️⃣ 논리성 중...
앞서 <대상에 대한 정의>를 얘기했는데요. 대상을 A라고 정의했다면, 분석이나 결론 과정에서 A'가 나오거나 B가 나오지 않도록 주의해야 합니다. 제안서에 대상을 모두 동그라미⭕️ 쳐보세요. 그리고 그 동그라미가 모두 동일한 그룹을 의미하는지 확인해야 합니다.

5️⃣ 완성도 중...
형용사가 들어있나요? <많은 효과...> 또는 <보다 적게...> 이런 단어를 숫자로 바꿔보세요. 바꿀 수 없다고요? 그건 <대상에 대한 정의>가 정확하지 않거나, 혹은 데이터를 못 찾았거나, 혹은 데이터 분석이 제대로 이뤄지지 않아서 그렇습니다.

 

@statnmath 팔로우 후 댓글 달아주시면 제가 링크 보내드리겠습니다.

 

반응형

 

저는 캐나다에서 가족여행으로 갔고요. 가져가야할 준비물 정리한걸 올려드려요. 참고하세요. 

 

여권 및 문서:

  1. 여권 (여권 이미지 캡쳐)
  2. 여행자 보험 (여행자 보험 캡쳐) 
  3. 항공편 예약 확인서 
  4. 이동 수단 예약했을 때 따로 이미지로도 캡쳐해놓기 (갑자기 셀폰이 터지지 않을 것을 대비해서 이미지로 캡쳐해두었어요) 
  5. 엑티비티 예약도 이미지로 캡쳐해놓기 

금전 및 결제수단:

  1. 현금 (칸쿤 페소, 미 달러) (식사마다 USD 2~5 팁 + 가끔 음료 팁 + 리조트 방 정리 팁 = $15 ~ $20 하루 팁으로 계산했어요) 
  2. 신용카드 

건강 및 안전:

  1. 의약품 (개인 복용 중인 약 및 기본 의약품)
  2. 의료 보험 카드 및 비상 연락처
  3. 일회용 마스크 및 손소독제
  4. 벤드에이드, 후시딘 (특히 모래나 수영장 까끌한 바닥에 넘어졌을 때 대비 피부 다치는 경우가 많습니다) 
  5. 모기약 (늦은 봄, 여름 혹은 가을에 가시면 모기약 필수, 12월에 갔을 땐 모기 없었습니다.) 
  6. 조그만 자물쇠 (물론 리조트안에 금고가 있지만요. 중요한 용품 있으면 조그만 자물쇠로 가방 잠그세요) 

편의 혹은 위생 용품:

  1. 여행용 어댑터
  2. 휴대폰 및 충전기
  3. 여행용 세면도구 
  4. 썬크림  (햇볓이 굉장히 셉니다! 스포츠용으로 구비) 
  5. 애프터썬 크림

수영 용품 

  1. 수영복 개인당 2개 이상 (빨래 잘 안 마릅니다.) 
  2. 비닐봉지 혹은 지퍼백 (젖은 옷 챙겨야할때 필요합니다.)
  3. 집게 많은 빨래 옷걸이 (수영복 말릴때 필요해요) 
  4. 비치백 
  5. 방수백
  6. 튜브 (수영장에서 사람 많을때 큰 튜브는 불편할 수 있어요. 이건 개인 선호도가 있으니 패스~) 

의류 및 액세서리:

  1. 슬리퍼  
  2. 모자, 선글라스
  3. 가벼운 재킷이나 가디건 
  4. 운동화나 조금 점잖은 신발 
  5. 속옷, 잠옷 
  6. 얇은 긴팔, 얇은 긴바지 
  7. 비치 드레스  

가족여행 시 아이 용품:

  1. 모래놀이 용품 (적어도 작은 플라스틱 삽) 
  2. 수영복 여러개 + 목욕가운 혹은 개인 비치타올 필수 (보통 비치타올은 리조트에서 제공하지만 꼭 반환해야하기 때문에 방 까지 들어갈때는 개인 비치타올로 둘둘 말아서 가는게 편해요) 
  3. 튜브 (수영장 바닥이 까끌한 경우가 많아 잘 찢어져요. 보호필름도 가져오면 좋습니다.) 
반응형

+ Recent posts