반응형 Qwen3Omni2 알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁 30억 활성 파라미터로 고성능 발휘, 수학·이미지 인식·에이전트 제어 강화FP8 버전 포함하여 오픈소스로 제공…HuggingFace, GitHub 등에서 이용 가능 중국 기술 대기업 알리바바(Alibaba)의 AI 연구 조직인 Qwen 팀이 'Qwen3-Omni' 계열의 새로운 소규모 멀티모달 모델 두 가지를 오픈소스로 공개했다. 이 모델들은 각각 30억 개의 활성 파라미터(3B active parameters)를 가졌음에도 불구하고, 대규모 모델인 GPT-4o 및 클로드 3 소네트(Claude 3 Sonnet)와 경쟁할 만한 고성능을 발휘한다고 발표했다. 새롭게 공개된 모델은 Qwen3-VL-30B-A3B-Instruct와 Qwen3-VL-30B-A3B-Thinking 버전이다. Qwen3 컴.. 2025. 10. 5. 알리바바, 멀티모달 AI 'Qwen3-Omni' 오픈소스 공개 텍스트·음성·이미지·영상 통합 처리…오픈소스 AI 생태계에 새바람실시간 음성 상호작용 가능…다국어 지원으로 활용성 극대화 알리바바 클라우드의 AI 연구팀인 콴원(Qwen)이 텍스트, 이미지, 오디오, 비디오를 모두 이해하고 실시간 음성으로 응답하는 옴니모달(omni-modal) 대규모 언어모델(LLM) 'Qwen3-Omni'를 오픈소스로 공개했다. 이는 폐쇄형 모델이 주도하던 멀티모달 AI 시장에서 오픈소스 모델의 새로운 가능성을 제시했다는 평가를 받고 있다.텍스트 넘어 멀티모달로…경계 허무는 AI최근 인공지능 분야는 단순히 텍스트를 처리하는 것을 넘어, 음성, 이미지, 영상을 복합적으로 이해하고 상호작용하는 멀티모달 기술 경쟁이 치열하다. 'Qwen3-Omni'는 이러한 흐름 속에서 텍스트와 비전, 오.. 2025. 9. 23. 이전 1 다음 반응형