프로젝트로 #AI스타트업 #Anthropic #LLM 모델인 Cluade2.1와 GPT4를 테스트중에 있는데요. Cluade3이 출시되어서 너무 기대하고 있습니다. 그런데 Anthropic의 프롬프트 엔지니어가 Opus모델을 needle-in-the-haystack 테스트해봤다고 하는데요. 이 테스트가 뭐냐면, 대용량의 문서에 (건초더미) 아주 특정 주제(바늘)을 넣어서 이 특정 주제를 잘 찾는지, 다른 말 하지는 않는지 테스트해보는거예요. 때론 거짓 정보를 주거나 없는 말을 만들어내기도 하고, (Hallucination) 또는 모델이 이미 훈련되어 알고있는 것을 알려주기도 하거든요.

 

 

Claude 3라는 이름은 세 개의 새로운 LLM을 포괄하며 가장 유능한 것은 Claude 3 Opus이라고 합니다.

 

Claude Pro 사용자에게만 제공되는 Anthropic의 새로운 프리미엄 AI 모델이고요. 대학원 수준의 추론 능력은 GPT-4의 35.7% 점수와 비교하여 테스트했을 때 50.4%를 기록했다고 합니다. 

 

그 아래 모델로 Claude Pro 구독 비용을 지불하고 싶지 않은 경우 사용할 수 있는 Claude 3 Sonnet이 있습니다. 대학원 시험 점수가 40.4%(역시 GPT-4의 35.7% 등급과 비교)라고 하고요. 

마지막으로 현재 미공개 세 번째 모델인 클로드 3 하이쿠(Claude 3 Haiku)가 있는데요. 즉각적인 응답이 제공될 수 있도록 설계되었다고 합니다. 

 

 

프롬프트 엔지니어 트위터를 보면.. 건초더미속에 바늘찾기 성능을 테스트하던 중, Opus가
👽 내가 주의를 기울이고 있는지 테스트하기 위해 넣었다고 생각합니다~~~ 라고 대답했다고 합니다.

신기하다~ 라고 생각할 수 있지만... 프롬프트 엔지니어의 트위터!! 뭔가 이상하지 않나요?
참고로 모델은 주어진 건초더미뿐 아니라, 프롬프트역시 읽게 되는데.. 이 프롬프트에 어떻게 적었는지에 따라 모델이 답변을 합니다.

만약 프롬프트에다가..
😤 Think Step by step이라고 입력하면...
모델은 내가 차근 차근 생각해봤는데 말이지~ 라고 답변합니다.

😤 주의해서 찾아봐!! 라고 입력하면...
내가 주의를 기울이면서 봤는데~~ 라고 대답할 수 있죠.

😤 내가 테스트할거니까 주의를 기울이면서 잘 찾아봐야해!! 라고 입력하면..
트위터에 있는 것처럼 당연히 이렇게 대답할 수 있다고 생각합니다. 

 

아무래도 모델이 출시 되었고, 직원이 프롬프트를 공개하지 않은 상태로 모델이 어떻게 대답했는지 알려준건 뭔가 반쪽만 공개한 느낌이 강한데요. 그래도 성능이 뛰어나다고 하니 저 역시 Cluade 3를 곧 사용해보려고 합니다. 

반응형

+ Recent posts