AI

MS의 MLLM(Multimodal Large Language Model) 모델인 Kosmos-1

담락 이승훈 실장 2023. 3. 8. 23:35

Microsoft 연구팀이 또 충격적인 논문을 하나 arXiv에 공개했습니다. 텍스트 언어만 다루는 것이 아니라 비전, 오디오 멀티모달 데이타까지 모두 취급하는 MLLM(Multimodal Large Language Model) 모델인 Kosmos-1을 소개하였습니다.

정말 AGI를 향해 가는 것인가요? 

"언어, 멀티모달 인식, 행동, 세계 모델링의 융합은 인공 일반 지능을 향한 핵심 단계입니다. 이 작업에서는 일반적인 양식을 인식하고, 맥락에서 학습하며(즉, 소량 학습), 지시를 따를 수 있는(즉, 제로 샷) 다중 모드 대규모 언어 모델(MLLM)인 Kosmos-1을 소개합니다. 실험 결과에 따르면 Kosmos-1은 (i) 언어 이해, 생성, 심지어 OCR이 필요 없는 NLP(문서 이미지가 직접 제공됨), (ii) 멀티모달 대화, 이미지 캡션, 시각적 질문 답변 등의 지각 언어 작업, (iii) 설명이 포함된 이미지 인식(텍스트 지시를 통한 분류 지정) 등의 비전 작업에서 인상적인 성능을 발휘합니다. 또한 언어에서 다중 모달로, 다중 모달에서 언어로 지식을 전달할 수 있는 교차 모달 전달을 통해 MLLM이 이점을 얻을 수 있음을 보여줍니다. 또한 MLLM의 비언어적 추론 능력을 진단하는 레이븐 IQ 테스트 데이터셋을 소개합니다."

Key insights and lessons learned from the paper:

- Combining language, perception, and action is an essential step towards artificial general intelligence.

- Multimodal Large Language Models (MLLMs) can learn to perceive general modalities, follow instructions, and learn in context.

- MLLMs can benefit from cross-modal transfer, i.e., transfer knowledge from one modality to another.

- Kosmos-1 achieves impressive performance on a wide range of tasks, including language understanding, generation, perception-language tasks, and vision tasks.

논문: https://arxiv.org/abs/2302.14045
GitHub: https://github.com/microsoft/unilm