ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 오늘 드디어 LLaMA 3.1이 공개되었다고 합니다....
    AI 2024. 7. 24. 18:18
    오늘 드디어 LLaMA 3.1이 공개되었다고 합니다....
     
    버전 3.1으로 부르는거 보니, 몇 달전 공개한 LLaMA 3으로 공개되었던 8B 및 70B 모델들의 성능을 더 끌어올림과 동시에, 모두가 기다리던 405B 모델을 함께 공개해서 0.1 올린거 같습니다 
    하지만 아직은 LLaMA 3 시리즈의 모든 모델이 공개된 것은 아닙니다. 현재까지는 LLM 으로서의 LLaMA 3 모델들만 공개된 것이고, Multi-Modality를 탑재한 버전은 연구 중에 있다고 하며 
    Image, Video, Speech를 이해하는 것은 물론, Speech 생성까지 포함될 예정이라고 하니 기대가 많이 됩니다.
     
    이번 LLaMA 3.1 릴리즈의 가장 큰 의미는 역시 오픈 사이언스인 것 같습니다. 지금까지 빅테크들이 공개한 여러 Tech Report 와는 달리 논문을 공개하였으며, 여기에 아래와 같은 다양하면서도 유익한 지식들이 많이 들어 있습니다. 모델의 구조, 사용된 데이터, Scaling Law, 계산 자원의 클러스터 구성 방식(GPU, 스토리지, 네트워크), Parallelism이 적용된 방식(TP, CP, DP, PP 복합), 학습 과정(3-stage Pre-training, SFT/DPO post-training), Safety, Multi-modal experiments, 인퍼런스 최적화 등등이 기재되어 있다고 합니다.
     
    성능을 따져 보자면, 아카데믹 벤치마크 지료로 봤을 때는 LLaMA 3.1 405B가 GPT-4는 확실히 뛰어넘은 것으로 보이며, GPT-4o 보다는 떨어지지만 그에 준하는 성능 아닌가 싶습니다. 70B 모델이 GPT-4에 준하는 성능으로 보이고, 8B 모델은 동일 클래스의 다른 오픈 모델 대비 최고의 성능을 보이고 있습니다. 여러모로 활용도가 높을 것 같습니다.
     
    한편, Cluade 3.5 Sonnet이 해당 벤치마크로 봐서는 가장 수준이 높게 보이지만, 실제 사람이 채점한 답안 결과로 봐서는 GPT-4o > GPT-4 >=  LLaMA 3.1 405B >= Claude 3.5 Sonnet 정도로 순위를 매길 수 있어 보입니다. 그러나 큰 폭의 차이는 없어서, 사실상 모두가 엇비슷한 수준의 성능을 보유한 게 아닌가 싶습니다.
    (이 Human Evaluation는 Easy(10%)/Medium(30%)/Hard(60%)   비율로 구성된 7,000개의 프롬프트에 대해, 1~7점을 매기는 방식으로 진행되었다고 합니다.)
     
    또한, Long Context Pre-training 기법이 적용되어 Context 길이는 8B/70B/405B 모두 128K 까지 늘어났습니다. 학습 단계에서 128K 까지 보장하는 것이어서, 이미 학습된 모델의 Context 길이를 늘리는 기법들이 적용되면 1M 까지도 늘어날 모델들이 상당히 많이 등장할 것 같습니다. 또한 다양한 Post Training 기법들의 적용으로, Instruct 모델들은 Tool Use 까지도 Native로 지원한다고 하네요. 여러모로 오픈소스 커뮤니티에서 수행되는 SFT 작업들의 고수준 베이스 라인이 될 것 같아서 좋을 거 같습니다.
     
    그렇게 많은 다국어 텍스트가 투입된 것은 아니지만, 다국어도 공식적으로 지원된다고 밝혔습니다. LLaMA 3 모델들도 다국어를 지원은 했었지만, 공식적으로는 전략적으로 영어만 보장한다고 공표했던 것이라고 하네요. 데이터 자체에 큰 변화가 생긴 것은 아닌 것 같고, 3.0 버전의 모델들을 완전히 밑바닥에서부터 3.1로 교체한 것은 아닌 거 같습니다.
     
    마지막으로 한 가지만 더 짚고 넘어가자면, LLaMA 3.1에 대한 라이선스도 갱신되었습니다. 자세한건 좀 더 봐야 겠지만, 다른 상용 모델을 학습시키는 데 사용될 수 있는 Synthetic Dataset 생성에 활용 가능하다고 명시되어 있다고 합니다. 이미 합성 데이터셋 생성은 GPT, Gemini, Claude 등으로 오픈 소스 커뮤니티에서 활발히 이루어지고 있었지만, "may not" 이라는 문구 때문에 사실상 찝찝한 면이 있던 것도 사실입니다. 물론 여러 실험들이 앞으로 진행되겠지만, 긍정적인 신호를 찾을 수 있다면, 그 다음부터는 상용 모델들과 엇비슷한 수준의 능력을 보유한 405B와 70B 모델을 적극 활용한 SFT/DPO 튜닝 모델들이 대거 등장할 것 같네요.
     
    하지만, 여전히 405B 모델을 직접 호스팅하는 것은 엄청나게 비용이 많이 발생하는 일입니다. 단순히 생성 토큰 수 당 비용이라고 계산하기 애매한 부분이 있고, 405B쯤 되면 Spot 인스턴스에 올리는것 조차 엄청난 부담입니다. (H 100을 몇장을 써야 할지....)이제는 오픈 소스 AI 모델을 언제, 어떻게 활용해야 할 지를 잘 고민해 보는 게 중요한 때가 된 것으로 판단됩니다.
     
     
    참조. LLM KR의 박찬성님의 글을 조금 수정하여 기재합니다..
Designed by Tistory.