AI

7B ~ 10B 사이의 중형 모델에 대한 최근 벤치마크 자료

담락 이승훈 실장 2024. 8. 13. 10:52
Park Sang님의 7B ~ 10B 사이의 중형 모델에 대한 지능 평가를 진행하고 결과를 소개합니다. 영어와 한국어 각각에 대한 평가를 진행했고 영어는 MMLU, 한국어는 KMMLU를 벤치마크 데이터셋으로 평가를 수행했습니다. 모든 평가는 별도의 special training method를 적용하지 않은 base model에 대한 평가로 제한했으며, pretraining 과정 중에 습득한 지식을 측정하는 형태로 진행했습니다. 결과는 다음과 같습니다.
 
- Qwen2는 영어와 한국어 모두 가장 성능이 좋은 모델입니다. 초기 버전은 별도의 remote code가 존재하는 등 모델링과 토크나이저 문제가 있었으나 2 버전에 이르러서는 대부분의 프레임워크가 잘 지원하며 호환성 문제가 없습니다. 현존하는 가장 뛰어난 모델이며, 개인적으로 중국 모델이 우월한 성능을 보이는데는 뛰어난 데이터셋을 보유하고 있기 때문이 아닌가 싶네요.
- Gemma 2는 그 다음으로 뛰어난 모델입니다. 역시 구글이라는 평가가 나올만 하지만 아쉽게도 soft crapping등 여러 기법을 도입하면서 inference 문제가 있고, 속도에도 개선의 여지가 있습니다. 여전히 정상적으로 inference 못하는 프레임워크가 있기 때문에 성능과는 별개로 아직 호환성 문제가 있습니다.
- Llama 3.1은 가장 호환성이 좋습니다. 사실상 모든 프레임워크가 잘 지원합니다. 만약 점수 1~2점 더 높이는게 중요하지 않다면, 라마는 항상 최선의 선택입니다.
- SOLAR는 Mistral을 base로 하며, 크기를 10B로 키운만큼 그 정도의 성능 향상이 있습니다. 하지만 오픈 모델은 한국어 학습이 되어 있지 않으며, 그래서 EEVE는 SOLAR를 base로 하여 vocab extention을 적용해 한국어 continued learning을 진행하고, 한국어 점수를 3점 이상 높였습니다. 아쉽게도 영어 점수는 1점이 더 떨어졌습니다.
- KONI-Llama3, Llama-3-KoEn, Llama-3-Open-Ko는 라마3를 기반으로 하는 continued learning 모델입니다. 저마다 60GB ~ 200GB 한국어 데이터셋을 추가로 학습했다고 하나 KMMLU 점수 향상이 미미하고 KONI 모델은 아예 점수 측정이 안됩니다. 무엇보다 영어 점수가 10점 이상 더 떨어지기 때문에 안타깝게도 학습을 하지 않는만 못한 결과를 보입니다.
- EXAONE-3.0은 base 모델을 공개하지 않아 intruct 모델을 대상으로 했습니다만 같이 비교해보기 위해 chat template을 주지 않고 함께 평가를 진행했습니다. 무엇보다 EXAONE은 라마 기반이 아니라 LG에서 from scratch로 학습한 모델입니다. 그럼에도 불구하고 라마3.1과 동등한 수준의 영어 성능을 보여주며, 한국어는 4점 이상이 높은 준수한 성능을 보여줍니다. 라이선스 문제로 인해 상용 서비스에는 사용할 수 없는 점이 아쉽습니다.