36조 토큰 데이터로 학습된 다국어 지원 모델
코딩·수학 분야에서 경쟁력 있는 성능 입증
중국 알리바바가 4월 28일(현지시간) 새로운 AI 모델 'Qwen3'를 공개했다. 이 모델은 0.6B부터 235B까지 다양한 파라미터 크기를 가진 모델군으로 구성되어 있으며, 특히 하이브리드 추론 방식을 도입해 복잡한 문제 해결 능력을 크게 향상시켰다.
Qwen3의 가장 큰 특징은 '하이브리드' 추론 방식이다. 이는 복잡한 문제에 대해서는 충분한 시간을 들여 추론하고, 단순한 질문에는 빠르게 응답하는 방식으로, 사용자가 필요에 따라 추론 시간을 조절할 수 있다. 또한 일부 모델은 'Mixture of Experts'(MoE) 아키텍처를 채택해 더 효율적인 연산이 가능하도록 설계됐다.
이 모델은 119개 언어를 지원하며, 약 36조 토큰의 데이터로 학습됐다. 학습 데이터에는 교과서, 질문-답변 쌍, 코드 스니펫, AI 생성 데이터 등이 포함됐다.
성능 면에서도 Qwen3는 특히 코딩과 수학 분야에서 두각을 나타냈다. 프로그래밍 대회 플랫폼인 Codeforces에서 Qwen3-235B-A22B 모델은 OpenAI의 o3-mini와 Google의 Gemini 2.5 Pro를 능가하는 성능을 보였다. 또한 수학 벤치마크인 AIME와 추론 능력 테스트인 BFCL에서도 우수한 성과를 기록했다.
현재 Qwen3는 Hugging Face와 GitHub를 통해 대부분의 모델이 오픈 라이선스로 공개됐으며, Fireworks AI와 Hyperbolic 등의 클라우드 제공업체를 통해서도 이용 가능하다.
AI 클라우드 호스팅 업체 Baseten의 CEO 투힌 스리바스타바는 "Qwen3는 오픈 모델이 폐쇄형 시스템과 동등한 수준에 도달하고 있다는 점을 보여주는 또 다른 사례"라고 평가했다.
참고링크
Qwen3: Think Deeper, Act Faster
QWEN CHAT GitHub Hugging Face ModelScope Kaggle DEMO DISCORD Introduction Today, we are excited to announce the release of Qwen3, the latest addition to the Qwen family of large language models. Our flagship model, Qwen3-235B-A22B, achieves competitive res
qwenlm.github.io
#AI #알리바바 #Qwen3 #인공지능 #딥러닝 #머신러닝 #AI모델 #하이브리드AI #기술혁신 #AI경쟁
'IT' 카테고리의 다른 글
메타, AI 어시스턴트 앱과 Llama API 플랫폼 출시 (0) | 2025.04.30 |
---|---|
허깅페이스, $100 3D 프린팅 로봇팔 출시... AI 교육용 로봇 시장 '새 바람' (0) | 2025.04.30 |
OpenAI, ChatGPT 검색에 쇼핑 기능 추가 (0) | 2025.04.29 |
어도비, 파이어플라이 ‘올인원 AI 엔진’으로 전면 개편 (0) | 2025.04.28 |
AI 기술로 변모하는 스포츠 산업: 훈련부터 팬 경험까지 혁신 가속화 (1) | 2025.04.27 |