본문 바로가기
IT

알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁

by 카메라의눈 2025. 10. 5.
반응형
30억 활성 파라미터로 고성능 발휘, 수학·이미지 인식·에이전트 제어 강화
FP8 버전 포함하여 오픈소스로 제공…HuggingFace, GitHub 등에서 이용 가능

 

알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁

 

중국 기술 대기업 알리바바(Alibaba)의 AI 연구 조직인 Qwen 팀이 'Qwen3-Omni' 계열의 새로운 소규모 멀티모달 모델 두 가지를 오픈소스로 공개했다. 이 모델들은 각각 30억 개의 활성 파라미터(3B active parameters)를 가졌음에도 불구하고, 대규모 모델인 GPT-4o클로드 3 소네트(Claude 3 Sonnet)와 경쟁할 만한 고성능을 발휘한다고 발표했다.

 

새롭게 공개된 모델은 Qwen3-VL-30B-A3B-InstructQwen3-VL-30B-A3B-Thinking 버전이다.

 

 

 

 

 

Qwen3 컴팩트 모델의 주요 특징 및 성능

이번에 출시된 Qwen3-Omni 컴팩트 모델은 소규모 모델임에도 불구하고 여러 벤치마크에서 뛰어난 성능을 보였다. 특히 수학, 이미지 인식, 텍스트 인식, 비디오 처리, 에이전트 제어 등 다양한 영역에서 강력한 경쟁력을 입증했다.

Qwen3-VL-30B-A3B-Thinking 모델은 복잡한 추론 작업을 위해 사고 연쇄(Chain-of-Thought) 기능을 탑재하고 있어, 고난도 문제 해결에 특화되었다.

 

알리바바는 이 모델들을 HuggingFace, ModelScope, GitHub를 통해 오픈소스로 제공하며, 알리바바 클라우드 API를 통해 접근할 수도 있다. 이는 개발자와 연구자들이 자원 효율적인 환경에서 최첨단 멀티모달 AI를 활용할 수 있도록 접근성을 높이는 조치다.

모델 계열 활성 파라미터(Active Parameters) 주요 특징 제공 방식
Qwen3-VL-30B-A3B-Instruct 30억 (MoE 아키텍처) 일반 지시 수행에 특화된 모델 오픈소스 및 API
Qwen3-VL-30B-A3B-Thinking 30억 (MoE 아키텍처) Chain-of-Thought 추론 기능 탑재, 복잡한 문제 해결 특화 오픈소스 및 API
Qwen3-VL-235B-A22B 220억 (MoE 아키텍처) 플래그십 모델, FP8 버전 추가 제공 (더 빠른 추론 속도) 오픈소스 및 API

 

또한, 빠른 추론(Inference) 속도를 위한 FP8(8-bit floating point) 버전도 함께 공개되어, 컴퓨팅 자원이 제한적인 환경에서도 고성능 AI 모델을 효율적으로 운영할 수 있게 되었다.

 


 

출처: The Decoder, Analytics Vidhya (2025. 10. 4.)

반응형