본문 바로가기
IT

알리바바, 멀티모달 AI 'Qwen3-Omni' 오픈소스 공개

by 카메라의눈 2025. 9. 23.
반응형
텍스트·음성·이미지·영상 통합 처리…오픈소스 AI 생태계에 새바람
실시간 음성 상호작용 가능…다국어 지원으로 활용성 극대화

Qwen3-Omni
Qwen3-Omni

 

알리바바 클라우드의 AI 연구팀인 콴원(Qwen)이 텍스트, 이미지, 오디오, 비디오를 모두 이해하고 실시간 음성으로 응답하는 옴니모달(omni-modal) 대규모 언어모델(LLM) 'Qwen3-Omni'를 오픈소스로 공개했다. 이는 폐쇄형 모델이 주도하던 멀티모달 AI 시장에서 오픈소스 모델의 새로운 가능성을 제시했다는 평가를 받고 있다.

반응형

텍스트 넘어 멀티모달로…경계 허무는 AI

최근 인공지능 분야는 단순히 텍스트를 처리하는 것을 넘어, 음성, 이미지, 영상을 복합적으로 이해하고 상호작용하는 멀티모달 기술 경쟁이 치열하다. 'Qwen3-Omni'는 이러한 흐름 속에서 텍스트와 비전, 오디오를 통합적으로 처리하는 엔드투엔드(End-to-End) 모델로 개발됐다. 특히, 실시간으로 사용자의 음성 및 영상에 반응하며 자연스러운 음성 대화를 생성하는 기능이 강점이다.

 

콴원 팀은 'Qwen3-Omni'에 새로운 'Thinker-Talker' 아키텍처를 도입했다. 'Thinker'는 복합적인 입력을 분석하고 추론하는 역할을, 'Talker'는 이 결과를 기반으로 자연스러운 음성을 생성하는 역할을 맡는다. 이를 통해 모델의 성능과 효율성을 동시에 끌어올렸다는 설명이다.

 

 

 

오픈소스 커뮤니티 "환영"…개발 생태계 활성화 기대

'Qwen3-Omni'의 등장은 오픈소스 AI 커뮤니티에서 큰 환영을 받고 있다. 기존의 오픈소스 모델들이 주로 텍스트나 이미지 등 단일 모달리티에 집중했던 것과 달리, 이 모델은 모든 모달리티를 통합적으로 지원하며, 특히 실시간 대화 기능은 개발자들에게 다양한 응용 가능성을 제공할 것으로 기대된다.

 

글로벌 개발자 커뮤니티인 'Hugging Face'와 'GitHub'에는 이미 'Qwen3-Omni' 관련 저장소가 개설돼 활발한 논의가 이루어지고 있다. 익명을 요구한 한 국내 AI 개발자는 "GPT-4o와 같은 최신 모델에 비견될 만한 성능을 오픈소스로 사용할 수 있게 된 것은 매우 고무적인 일"이라며 "개인이나 소규모 팀도 고도화된 AI 서비스를 개발할 수 있는 기반이 마련된 셈"이라고 평가했다.


 

참고 출처 및 링크

 

반응형